Hortonworks

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура, дистрибутив хортонворкс

Hortonworks Data Platform (HDP) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит Apache Software Foundation, адаптированных компанией Hortonworks для больших данных (Big Data) и машинного обучения (Machine Learning), бесплатно распространяемый и коммерчески поддерживаемый [1].

Помимо HDP, компания Hortonworks предлагает еще другие продукты для Big Data и Machine Learning, также основанные на проектах Apache Software Foundation [2]:

  • Hortonworks DataFlow (HDF) –NiFi, Storm и Kafka;
  • Сервисы Hortonworks DataPlane: Apache Atlas и Cloudbreak для интеграции со сторонними решениями.

Состав и архитектура Hortonworks

Кроме базового набора модулей Hadoop от Apache Software Foundation (HDFS, MapReduce, Yarn и Hadoop Common), HDP также содержит дополнительные решения Apache для работы с большими данными и машинным обучением:

  • Flume, Sqoop, Falcon, NFS, WebHDFS для управления потоками данных;
  • Kerberos, KNOX, Ranger для обеспечения безопасности;
  • Ambari, Zookeeper, Oozie для планирования и координирования распределенной обработки задач;
  • Hive, HCatalog, HBase, Acumlo – реляционные и NoSQL СУБД;
  • Pig для программирования запросов к большим слабоструктурированным наборам данных;
  • Stream для потоковой обработки данных;
  • Solr для полнотекстового и фасетного поиска, динамической кластеризации, интеграции с базами данных и обработка документов со сложным форматом.
Архитектура HortonWorks HDP,
Состав HortonWorks HDP

Аналогично подобному решению от компании Cloudera, HDP содержит Hortonworks Management Center (HMC) на основе Apache Ambari, который выполняет те же самые функции, что и Cloudera Manager, но при этом совершенно бесплатен [1].

История появления и развития HDP

HDP – это продукт американской компании HortonWorks, который появился и развивался следующим образом:

2011 – год основания компании инженерами из корпорации Yahoo! [2];

2014 – выпуск версии 2.1, которая включает новую технологию SQL-запросов Apache Hive 0.13, чтобы повысить скорость и масштаб интерактивных запросов к Hadoop (в петабайтах). Также HDP 2.1 содержит Apache Falcon для улучшения комплексного управления данными в рамках Hadoop, Apache Knox для защиты периметра, механизм обработки Apache Storm для улучшения потоковой обработки в реальном времени и поисковую технологию Apache Solr [3].

2016 – выпуск версии 2.5 с набором расширений от глубокого анализа данных и управления доступом к данным до безопасности и полного руководства данными: Apache Atlas для руководства данными, Apache Ranger для обеспечения безопасности на основе динамической классификации, Apache Ambari для упрощенной установки, защищенного конфигурирования, администрирования и сопровождения HDP [3].

2017 – интеграция с хранилищами данных IBM, решениями IBM Elastic Storage Server (ESS) и IBM Spectrum Scale, чтобы [3]:

  • повысить эффективность хранения данных – в отличие от HDFS, создающей 3 копии каждой единицы информации, IBM ESS использует код избыточности, устраняя необходимость создания множества копий и увеличивая рентабельность хранения;
  • расширить хранение информации на локальных системах с помощью безопасного и доступного облака;
  • увеличить производительность системы за счет ESS.

2019 – слияние с фирмой-конкурентом Cloudera, которая реализует свой коммерческий дистрибутив хадуп — Cloudera CDH (Cloudera’s Distribution including Apache Hadoop). В СМИ сделка позиционируется как равное партнерство [4], однако стоимость и обороты Cloudera намного выше, чем у Hortonworks. Поэтому слияние скорее выглядит как поглощение: под контролем акционеров Cloudera 60% ценных бумаг обеих компаний, у акционеров Hortonworks — 40% [5].

HortonWorks, HDP, Big Data инфраструктура большие данные
Дистрибутив Хортонворкс — отличное и совершенно бесплатное решение для проектов Big Data

Вся специфика настройки, администрирования и использования HortonWorks в проектах больших данных и машинного обучения на наших компьютерных курсах обучения инженеров, администраторов и аналитиков Big Data и Machine Learning в Москве:

Источники

  1. https://m.habr.com/ru/post/151062/
  2. https://en.wikipedia.org/wiki/Hortonworks
  3. http://www.tadviser.ru/index.php/Продукт:Hortonworks_Data_Platform_(HDP)
  4. https://www.computerworld.ru/articles/Bolshe-chem-bolshie-dannye-Cloudera-i-Hortonworks-obedinyayutsya
  5. http://www.tadviser.ru/index.php/Компания:Hortonworks

 

Related Entries