Cloudera

Cloudera CDH (Cloudera’s Distribution including Apache Hadoop) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит, разработанных компанией Cloudera для больших данных (Big Data) и машинного обучения (Machine Learning), бесплатно распространяемый и коммерчески поддерживаемый для некоторых Linux-систем (Red Hat, CentOS, Ubuntu, SuSE SLES, Debian) [1].

Состав и архитектура Клаудера CDH

Помимо классического Hadoop от Apache Software Foundation, состоящего из 4-х основных модулей (HDFS, MapReduce, Yarn и Hadoop Common), CDH также содержит дополнительные решения Apache для работы с большими данными и машинным обучением:

  • инструменты для управления потоками данных (Flume, Sqoop);
  • фреймворки распределённой и потоковой обработки, а также брокеры сообщений (Spark, Kafka)
  • СУБД для Big Data аналитики (HBase, Hive, Impala);
  • высокоуровневый процедурный язык для выполнения запросов к большим слабоструктурированным наборам данных (Pig);
  • координаторы и планировщики задач (Zookeeper, Oozie);
  • средства Machine Learning (Mahout);
  • набор библиотек для запуска облачных сервисов (Whirr).
Cloudera Enterprise, CDH, архитектура
Компоненты Cloudera Enterprise

Cloudera Enterprise Manager: чем CDH отличается от других дистрибутивов Apache Hadoop

Уникальным отличием CDH от других дистрибутивов Big Data инфраструктуры на основе Apache Hadoop является Cloudera Manager — собственная специализированная подсистема управления кластером. Она включает сценарии развёртывания Hadoop-инфраструктуры и средства Apache Maven, что позволяет автоматизировать создание и модификацию локальных и облачных Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий, настраивать оповещения о наступлении событий, связанных с эксплуатацией инфраструктуры распределённой обработки данных [1].

Существует бесплатная версия Cloudera Manager, которая ограничена 50-ю узлами и не поддерживает мониторинг производительности, управление версиями конфигурации, сетевой протокол аутентификации Kerberos. Коммерческая версия Cloudera считается достаточно дорогой за счет высокой стоимости технического сопровождения (примерно $4 тысяч в год за узел кластера) [1], поэтому позволить ее себе могут только очень крупные компании.

Платный вариант CDH называется Enterprise и включает Cloudera Manager — инструмент для развертывания, мониторинга и управления кластером, а также Cloudera Support – профессиональная поддержка от компании-разработчика по вопросам CDH и Cloudera Manager [2].

Модули Cloudera Enterprise
Модули Cloudera Enterprise

Помимо техподдержки, CDH Enterprise 4.0 включает следующие полезные компоненты [3]:

  • Мастер настройки и управления многими кластерами из одной консоли;
  • цветовые теплокарты, которые показывают степень исправности кластеров Hadoop;
  • поддержка хранения баз метаданных в Oracle 11g, MySQL или PostgreSQL.

История появления и развития

CDH является продуктом американской компании Cloudera, поэтому далее мы приведем основные вехи ее становления [1]:

2008 – год основания компании, приход основателей проекта Hadoop – Дуга Каттинга и Майкла Кафарелла;

2009 – оказание услуг технических консультаций по Hadoop;

2010 – разработка и поставка тиражируемого корпоративного программного обеспечения;

2012 – выпуск CDH4 с 3-мя новыми продуктами – Impala (SQL-решение для Big Data), Hue (браузерный интерфейс управления Hadoop-кластером) и Search (полнотекстовый и фасетный поиск в средах HDFS и HBase);

2014 – приобретение фирмы-разработчика технологии шифрования данных Gazzang;

2017 – поглощение нью-йоркской фирмы-разработчикы алгоритмов машинного обучения Fast Forward Labs;

2018 – выпуск CDH6 c поддержкой помехоустойчивого кодирования для HDFS, существенно снижающей физические размеры кластеров;

2019 – слияние с фирмой-конкурентом Hortonworks, которая реализовывала свой коммерческий дистрибутив Hadoop.

Клаудера, Big Data, CDH, Cloudera
CDH — отличное инфраструктурное решение для проектов Big Data

Как установить, настроить, обслуживать и успешно использовать Cloudera Hadoop для больших данных и машинного обучения узнайте на наших компьютерных курсах обучения различных категорий пользователей, от «чайников» до профессионалов – клаудера хадуп для инженеров, администраторов и аналитиков Big Data и Machine Learning в Москве:

Источники

  1. https://ru.wikipedia.org/wiki/Cloudera
  2. https://m.habr.com/ru/post/151062/
  3. http://www.tadviser.ru/index.php/Продукт:Cloudera_Enterprise

 

Related Entries