Hadoop умер, да здравствует Hadoop!

Hadoop, HDFS, Spark, обработка данных, большие данные, Big Data, облака

В последнее время в мире Big Data все меньше можно услышать новостей про Apache Hadoop. Сегодня рассмотрим, почему мифы о смерти Хадуп – это всего лишь мифы и как будет развиваться эта мощная экосистема хранения и обработки больших данных в будущем. Читайте в нашей статье про слияния и поглощения ведущих вендоров, тренд на облачные сервисы и Google Cloud Storage connector, а также попытки нивелировать ограничения HDFS с помощью Apache Ozone.

Apache Hadoop в 2020 году: развитие или забвение

При том, что сравнение Apache Hadoop и Spark не совсем корректно, т.к. последний входит в экосистему проектов первого, Спарк выигрывает по множеству показателей [1]:

  • MapReduce работает быстрее за счет операций в памяти, а с жестким диском;
  • микро-пакетный режим позволяет вести потоковую обработку данных практически в реальном времени;
  • Spark SQL снижает порог входа в технологию, реализуя аналитику больших данных через стандартные ANSI SQL-запросы;
  • наличие встроенной библиотеки машинного обучение (MLLib) включает специалистов по Data Science и Machine Learning в круг пользователей этого фреймворка.

Данные наблюдения подтверждает динамика поисковых запросов в соответствующем инструменте Google [2]: примерно с сентября 2016 года популярность Хадуп идет на спад, а Spark остается на достаточно высоком уровне, хотя тоже имеет тенденцию к снижению.

Hadoop, Spark
Анализ популярности Apache Hadoop и Spark по Google trends

Однако, не все так однозначно. Говорить о смерти Хадуп и устаревании этой Big Data технологии [3] не стоит по следующим причинам [4]:

  • большинство ключевых компонентов экосистемы постоянно обновляются – например, недавно мы рассказывали про Apache Spark 3.0, вышедший летом 2020 года. Примерно тогда же вышел новый релиз Apache Hadoop 3.3.0, поддерживающий ARM-архитектуру, Java 11, систему каталога YARN-приложений, файловую систему Tencent Cloud COS для доступа к объектному хранилищу COS и планирование запуска контейнеров по расписанию. Еще анонсировано облегчение работы с DNS и IP, а также стабилизация HDFS RBF (Router-based Federation), куда добавлены средства управления безопасностью [5];
  • основные компоненты платформы Хадуп достигли такого уровня зрелости и стабильности, что ажиотаж вокруг них закономерно снижается – эта Big Data технология становится повседневным надежным инструментом, который незаметно работает на заднем плане и не привлекает особого внимания;
  • повсеместный переход от локальной ИТ-инфраструктуры к облачным сервисам приводит к появлению новых соответствующих продуктов, таких как, например, Apache Ozone и Google Cloud Storage connector, о которых мы поговорим далее.

Слияния, поглощения и облака

Если еще несколько лет назад можно было наблюдать конкуренцию между несколькими вендорами или дистрибьютерами Хадуп: Hortonworks, MapR, Cloudera, то сегодня рынок этой Big Data платформы не отличается большим разнообразием. В частности, в 2018 году Cloudera и Hortonworks объявили о слиянии, а годом позже корпорация Hewlett-Packard Enterprise купила MapR Technologies [6]. Тем временем, Cloud-гиганты, такие как Microsoft Azure, Amazon и Google запускают облачные сервисы по хранению и обработке больших данных в т.ч. на базе хадуп-кластеров, предоставляемых по модели «on-demand», о чем мы писали здесь.

Таким образом, из локальных дистрибуций Хадуп enterprise-класса сегодня наиболее известными можно назвать продукт от Cloudera, а на российском рынке – от Arenadata. При этом востребованность локальных решений снижается, уступая месту тренду на сервисный подход. Актуальность этой тенденции подтверждает не только предложение Hadoop-as-a-Service практически у каждого облачного провайдера, но и выпуск следующих продуктов:

  • коннектор Google Cloud Storage– клиентская Java-библиотека с открытым исходным кодом, которая позволяет заменить HDFS на облачное хранилище Google. Она реализует Хадуп-совместимую файловую систему (Hadoop Compatible FileSystem, HCFS) и работает внутри JVM, что позволяет процессам обработки больших данных, таким как задания Hadoop или Spark, получать прямой доступ к информации из Google Cloud Storage [7]; Подробнее о Google Cloud Storage Connector for Hadoop мы рассказываем здесь.
  • Apache Ozone – масштабируемое распределенное хранилище объектов для Хадуп, которое может эффективно работать в контейнерных средах, таких как Kubernetes и YARN, и основано на высокодоступном реплицированном уровне блочного хранилища Hadoop Distributed Data Store (HDDS). Примечательно, что приложения Apache Spark, YARN и Hive, отлично совместимы с Ozone и не требуют внесения каких-либо изменений [8].

Завтра мы продолжим разговор про Apache Ozone и рассмотрим, чем это хранилище отличается от HDFS, а также какие преимущества оно предоставляет своим пользователям. А освоить практику администрирования и эффективной эксплуатации экосистемы Apache Hadoop для хранения и аналитики больших данных в проектах цифровизации частного бизнеса, а также государственных и муниципальных предприятий, вы сможете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

 

Источники

  1. https://www.iflexion.com/blog/spark-vs-hadoop-mapreduce
  2. https://trends.google.ru/trends/explore?date=all&q=Apache%20Hadoop,Apache%20Spark
  3. https://blogs.gartner.com/merv-adrian/2020/03/04/its-time-to-stop-talking-about-the-hadoop-market/
  4. https://blogs.gartner.com/merv-adrian/2020/08/19/august-2020-hadoop-distribution-apache-project-tracker/
  5. https://blogs.apache.org/hadoop/entry/announce-apache-hadoop-3-3
  6. https://www.livebusiness.ru/tags/big_data_platformy/
  7. https://www.infoq.com/news/2019/09/Google-Cloud-Storage-Hadoop/
  8. https://hadoop.apache.org/ozone/