Arenadata

Arenadata Hadoop — корпоративная платформа для обработки данных с открытым исходным кодом, представляет собой полноценный дистрибутив распределенной платформы хранения на базе Apache Hadoop. Для российских пользователей Arenadata Hadoop предлагает поддержку в России и на русском языке, с полным набором возможностей по автоматическому развертыванию в облаке и on-premises. оригинальтная документация ня русском языке, и удаленная или on-site поддержка. Сайт компании производителя Аренадата 

Hadoop

хадуп, Hadoop

Hadoop – это свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Эта основополагающая технология хранения и обработки больших данных (Big Data) является проектом верхнего уровня фонда Apache Software Foundation. Из чего состоит Hadoop: концептуальная архитектура Изначально проект разработан на Java в рамках вычислительной парадигмы MapReduce, когда приложение разделяется на большое количество одинаковых элементарных заданий, которые выполняются на распределенных компьютерах (узлах) кластера и сводятся в единый результат [1]. Проект состоит из основных 4-х модулей: Hadoop Common – набор инфраструктурных программных библиотек и утилит, которые используются в других решениях и родственных проектах, в частности, для управления распределенными файлами и создания необходимой инфраструктуры [1]; HDFS – распределённая файловая система, Hadoop Далее …

KNOX

Apache KNOX — REST API и шлюз приложений для компонентов экосистемы Apache Hadoop, обеспечивает единую точку доступа для всех HTTP соединений с кластерами Apache Hadoop и систему единой аутентификации Single Sign On (SSO) для сервисов и пользовательского интерфейса компонент Apache Hadoop. В сочетании с средствами сетевой изоляции  и  аутентификацией Kerberos, KNOX Gateway обеспечивает интегрированное решение для интеграции средств управления корпоративной идентификацией  (Identity Management Systems), маскирование инфраструктуры кластера Hadoop для клиентов и упрощение доступа клиентов к сервисам кластера Apache Hadoop.           Список поддерживаемых сервисов: Ambari WebHDFS (HDFS) Yarn RM Stargate (Apache HBase) Apache Oozie Apache Hive/JDBC Apache Hive WebHCat (Templeton) Apache Storm Apache Tinkerpop — Gremlin Apache Avatica/Phoenix Apache SOLR Apache Livy (Spark REST Service) Kafka REST Proxy Далее …

Zookeeper

Apache  Zookeeper —  open source проект Apache Software Foundation , cервис-координатор обеспечивающий распределенную синхронизацию небольших по объему данных (конфигурационная информация, пространство имен)  для группы приложений. Zookeeper представляет из себя распределенное хранилище ключ-значение (key-value store) гарантирующий надежное консистентное(consistency)  хранение информации  за счет использования синхронной репликации между узлами, контроля версий, механизма очередей(queue)  и блокировок(lock). За счет использования оперативной памяти и масштабируемости обладает высокой скоростью  Сценарии использования Zookeeper: Распределенный сервер имен (namespace — topics для Kafka) Распределенная  конфигурация (Hadoop, Kafka) Распределенный членство в группах (распределенные сервисы Kafka, Hadoop) Выбор главного в распределенных системах с арбитражом(Leader election)