Apache Hadoop 2020: уже не в моде, но продолжает отлично работать с Big Data

В последнее время в мире Big Data все меньше можно услышать новостей про Apache Hadoop. Сегодня рассмотрим, почему мифы о смерти Хадуп – это всего лишь мифы и как будет развиваться эта мощная экосистема хранения и обработки больших данных в будущем. Читайте в нашей статье про слияния и поглощения ведущих вендоров, тренд на облачные сервисы и Google Cloud Storage connector, а также попытки нивелировать ограничения HDFS с помощью Apache Ozone.

Apache Hadoop в 2020 году: развитие или забвение

При том, что сравнение Apache Hadoop и Spark не совсем корректно, т.к. последний входит в экосистему проектов первого, Спарк выигрывает по множеству показателей [1]:

MapReduce работает быстрее за счет операций в памяти, а с жестким диском;
микро-пакетный режим позволяет вести потоковую обработку данных практически в реальном времени;
Spark SQL снижает порог входа в технологию, реализуя аналитику больших данных через стандартные ANSI SQL-запросы;
наличие встроенной библиотеки машинного обучение (MLLib) включает специалистов по Data Science и Machine Learning в круг пользователей этого фреймворка.

Данные наблюдения подтверждает динамика поисковых запросов в соответствующем инструменте Google [2]: примерно с сентября 2016 года популярность Хадуп идет на спад, а Spark остается на достаточно высоком уровне, хотя тоже имеет тенденцию к снижению.

Hadoop, Spark — Анализ популярности Apache Hadoop и Spark по Google trends

Однако, не все так однозначно. Говорить о смерти Хадуп и устаревании этой Big Data технологии [3] не стоит по следующим причинам [4]:

большинство ключевых компонентов экосистемы постоянно обновляются – например, недавно мы рассказывали про Apache Spark 3.0, вышедший летом 2020 года. Примерно тогда же вышел новый релиз Apache Hadoop 3.3.0, поддерживающий ARM-архитектуру, Java 11, систему каталога YARN-приложений, файловую систему Tencent Cloud COS для доступа к объектному хранилищу COS и планирование запуска контейнеров по расписанию. Еще анонсировано облегчение работы с DNS и IP, а также стабилизация HDFS RBF (Router-based Federation), куда добавлены средства управления безопасностью [5];
основные компоненты платформы Хадуп достигли такого уровня зрелости и стабильности, что ажиотаж вокруг них закономерно снижается – эта Big Data технология становится повседневным надежным инструментом, который незаметно работает на заднем плане и не привлекает особого внимания;
повсеместный переход от локальной ИТ-инфраструктуры к облачным сервисам приводит к появлению новых соответствующих продуктов, таких как, например, Apache Ozone и Google Cloud Storage connector, о которых мы поговорим далее.

Слияния, поглощения и облака

Если еще несколько лет назад можно было наблюдать конкуренцию между несколькими вендорами или дистрибьютерами Хадуп: Hortonworks, MapR, Cloudera, то сегодня рынок этой Big Data платформы не отличается большим разнообразием. В частности, в 2018 году Cloudera и Hortonworks объявили о слиянии, а годом позже корпорация Hewlett-Packard Enterprise купила MapR Technologies [6]. Тем временем, Cloud-гиганты, такие как Microsoft Azure, Amazon и Google запускают облачные сервисы по хранению и обработке больших данных в т.ч. на базе хадуп-кластеров, предоставляемых по модели «on-demand», о чем мы писали здесь.

Таким образом, из локальных дистрибуций Хадуп enterprise-класса сегодня наиболее известными можно назвать продукт от Cloudera, а на российском рынке – от Arenadata. При этом востребованность локальных решений снижается, уступая месту тренду на сервисный подход. Актуальность этой тенденции подтверждает не только предложение Hadoop-as-a-Service практически у каждого облачного провайдера, но и выпуск следующих продуктов:

коннектор Google Cloud Storage– клиентская Java-библиотека с открытым исходным кодом, которая позволяет заменить HDFS на облачное хранилище Google. Она реализует Хадуп-совместимую файловую систему (Hadoop Compatible FileSystem, HCFS) и работает внутри JVM, что позволяет процессам обработки больших данных, таким как задания Hadoop или Spark, получать прямой доступ к информации из Google Cloud Storage [7]; Подробнее о Google Cloud Storage Connector for Hadoop мы рассказываем здесь.
Apache Ozone – масштабируемое распределенное хранилище объектов для Хадуп, которое может эффективно работать в контейнерных средах, таких как Kubernetes и YARN, и основано на высокодоступном реплицированном уровне блочного хранилища Hadoop Distributed Data Store (HDDS). Примечательно, что приложения Apache Spark, YARN и Hive, отлично совместимы с Ozone и не требуют внесения каких-либо изменений [8].

Завтра мы продолжим разговор про Apache Ozone и рассмотрим, чем это хранилище отличается от HDFS, а также какие преимущества оно предоставляет своим пользователям. Главные обновления свежего релиза Хадуп-2021 мы разбираем в этой статье. А освоить практику администрирования и эффективной эксплуатации экосистемы Apache Hadoop для хранения и аналитики больших данных в проектах цифровизации частного бизнеса, а также государственных и муниципальных предприятий, вы сможете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве: