Какой дистрибутив Hadoop выбрать: сравнение популярных решений

Проанализировав предложения крупных PaaS/IaaS-провайдеров по развертыванию облачного кластера, сегодня мы сравним 4 наиболее популярных дистрибутива Hadoop от компаний Cloudera, HortonWorks, MapR и ArenaData, которые используются при развертывании локальной инфраструктуры для проектов Big Data. Как мы уже отмечали, эти дистрибутивы распространяются бесплатно, но поддерживаются на коммерческой основе.

Некоторые отличия популярных дистрибутивов Hadoop

Несмотря на общую прикладную направленность, каждый из этих продуктов обладает своими уникальными особенностями:

корпоративное решение ClouderaCDH включает собственную подсистему управления кластером Cloudera Manager и характеризуется высокой стоимостью технического сопровождения (около $4 тысяч в год за узел кластера), поэтому позволить ее себе могут только очень крупные компании. Cloudera Manager позволяет автоматизировать создание и модификацию локальных и облачных Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий, настраивать оповещения о наступлении событий, связанных с эксплуатацией инфраструктуры распределённой обработки данных [1].
Hortonworks Data Platform включает сервисы DataPlane (Apache Atlas и Cloudbreak) для интеграции со сторонними решениями и аналогичную Cloudera Manager подсистему управления кластером Hortonworks Management Center на основе Apache Ambari, которая предоставляется в каждом дистрибутиве совершенно бесплатно, в отличие от Cloudera CDH [2].
Дистрибутив MapR использует собственную распределенную файловую систему MapR-FS вместо HDFS, свою базу данных MapR-DB и уникальный распределенный брокер программных сообщений MapR Event Store вместо Apache Kafka [3]. Коммерческие версии (Enterprise Edition M5 и Enterprise Database Edition М7) обеспечивают высокую доступность и защиту данных, включая мультиузловый NFS, а также данные структурированных таблиц изначально на уровне хранилища [4].
ArenaData (Аренадата) – российское программное обеспечение с полной локализацией и технической поддержкой на русском языке без проприетарных компонентов, весь дистрибутив собран из открытых проектов Apache Software Foundation [5].

Компоненты популярных дистрибутивов Хадуп для проектов Big Data

В таблице показан компонентный состав экосистемы каждого из анализируемых дистрибутивов Hadoop с учетом их функционального назначения.

Дистрибутив	Общие компоненты	Файловая система	Управление кластером, координация, планирование	Управление интеграцией и потоками данных	Обеспечение безопасности	SQL СУБД	NoSQL СУБД	Потоковая обработка данных	Машинное обучение	Брокер сообщений
Cloudera	Hadoop Common, MapReduse, Yarn, Tez,полнотекстовый поиск Solr, язык запросов к слабоструктурированным данным Pig	HDFS	Cloudera Manager	Sqoop, Flume	Cloudera Navigator Encrypt, Sentry, RecordService	Hive, Impala,	Hbase	Spark Streaming	Mahout	Kafka
HortonWorks	Hadoop Common, MapReduse, Yarn, Tez,полнотекстовый поиск Solr, язык запросов к слабоструктурированным данным Pig	HDFS	Oozie, ZooKeeper, Ambari	Sqoop, Flume, Falcon, NFC, WebHDFS	Kerberos, Ranger, Knox	Hive, HCatalog,	HBase, Accumlo,	Storm	MLLib	Kafka
MapR	Hadoop Common, MapReduse, Yarn, Tez,полнотекстовый поиск Solr, язык запросов к слабоструктурированным данным Pig	MapR-FS	Oozie, ZooKeeper, Sahara	Sqoop, Flume, Hue, HttpFS	Kerberos, MapR Native Security	Drill, Hive, Impala, Spark SQL	HBase	Storm	Mahout, GraphX, MLLib	MapR Event Store
ArenaData	Hadoop Common, MapReduse, Yarn, Tez,полнотекстовый поиск Solr, язык запросов к слабоструктурированным данным Pig	HDFS	Oozie, ZooKeeper, Ambari	Sqoop, Flume, NFC, WebHDFS,	Atlas, Ranger, Knox	Hive	HBase	NiFi, NFC, Flink	Mahout, Giraph, MLLib	Kafka

Таблица позволяет сделать следующие выводы:

Практически все дистрибутивы, кроме MapR, содержат 4 основных модуля Apache Hadoop (HDFS, MapReduce, Yarn и Hadoop Common). MapR использует MapR-FS – свою распределенную файловую систему вместо HDFS;
В состав каждого дистрибутива входит Apache Tez – фреймворк, работающий поверх Hadoop YARN для быстрой обработки групповых и интерактивных данных, которым нужна интеграция с Hadoop YARN, Apache Solr – продукт полнотекстового и фасетного поиска, динамической кластеризации, интеграции с базами данных и обработка документов со сложным форматом, а также Apache Pig – высокоуровневый язык программирования запросов к большим слабоструктурированным наборам данных.
Каждый дистрибутив содержит средства управления потоками данных Sqoop и Flume, координаторы и планировщики задач (Zookeeper и Oozie), а также реляционную СУБД Hive и NoSQL
Дистрибутивы отличаются средствами обеспечения безопасности, потоковой обработки данных, машинного обучения и системами распределенных брокеров программных сообщений. Для потоковой обработки MapR и Hortonworks используют Apache Storm, Cloudera — Spark Streaming, а ArenaData — NiFi, NFC, Flink. Инструменты Machine Learning в Cloudera представлены в виде Apache Mahout, в Hortonworks – Apache Spark MLLib, а MapR и ArenaData используют оба этих продукта. Наконец, почти все дистрибутивы, кроме MapR, применяют Apache Kafka для быстрой обработки программных сообщений между приложениями. MapR использует собственную альтернативу — MapR Event Store.

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура — Использовать уже готовый дистрибутив Apache Hadoop — отличное решение

Подводя итог сходствам и различиям наиболее популярных дистрибутивов Hadoop, следует отметить, что каждый из них может успешно применяться в качестве основы для локальной инфраструктуры Big Data проектов. А, поскольку все они распространяются бесплатно, при выборе следует учитывать стоимость технической поддержки и сопровождения на вашем кластере, а также полноту программной документации. Впрочем, если вы хотите собрать свой Хадуп самостоятельно, обратите внимание на проект Apache Bigtop, о котором мы рассказываем здесь. А о том, почему иногда версия сообщества предпочтительнее коммерческих продуктов, читайте в нашей новой статье.

Как работать со всеми этими и другими инфраструктурными решениями Hadoop для больших данных (развертывание, настройка, администрирование, обеспечение безопасности и использование кластера) узнайте в нашем учебном центре – практические курсы обучения пользователей, инженеров, администраторов и аналитиков Big Data в Москве: