Arenadata

ArenaData Hadoop, ADH, Арена Дата Хадуп

Arenadata Hadoop (ADH) — корпоративная платформа для обработки данных с открытым исходным кодом, разработанная отечественной ИТ-компанией Arenadata. Aрена Дата — это полноценный дистрибутив распределенной платформы хранения и обработки больших данных (Big Data) на базе Apache Hadoop, включая средства управления сервисами, анализа информации, инструменты обеспечения безопасности, брокеры сообщений и потоковую обработку. В 2016 году дистрибутив ADH прошел сертификацию на соответствие требованиям спецификации ODPi Run Time Compliant (ODPi) [1] и получил подтверждение о полном соответствии стандартам ODPi – крупнейшего мирового сообщества разработчиков проектов хранения больших данных с открытым кодом под эгидой Linux Foundation [2]. Преимущества Arenadata Hadoop Полная локализация: для российских пользователей Aренадата Хадуп предлагает поддержку в России и на русском языке, с полным набором возможностей по автоматическому развертыванию в облаке и on-premises, Далее …

Cloudera

Cloudera CDH (Cloudera’s Distribution including Apache Hadoop) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит, разработанных компанией Cloudera для больших данных (Big Data) и машинного обучения (Machine Learning), бесплатно распространяемый и коммерчески поддерживаемый для некоторых Linux-систем (Red Hat, CentOS, Ubuntu, SuSE SLES, Debian) [1]. Состав и архитектура Клаудера CDH Помимо классического Hadoop от Apache Software Foundation, состоящего из 4-х основных модулей (HDFS, MapReduce, Yarn и Hadoop Common), CDH также содержит дополнительные решения Apache для работы с большими данными и машинным обучением: инструменты для управления потоками данных (Flume, Sqoop); фреймворки распределённой и потоковой обработки, а также брокеры сообщений (Spark, Kafka) СУБД для Big Data аналитики (HBase, Hive, Impala); высокоуровневый процедурный язык для выполнения запросов к большим слабоструктурированным наборам данных Далее …

Hadoop

хадуп, Hadoop

Hadoop – это свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Эта основополагающая технология хранения и обработки больших данных (Big Data) является проектом верхнего уровня фонда Apache Software Foundation. Из чего состоит Hadoop: концептуальная архитектура Изначально проект разработан на Java в рамках вычислительной парадигмы MapReduce, когда приложение разделяется на большое количество одинаковых элементарных заданий, которые выполняются на распределенных компьютерах (узлах) кластера и сводятся в единый результат [1]. Проект состоит из основных 4-х модулей: Hadoop Common – набор инфраструктурных программных библиотек и утилит, которые используются в других решениях и родственных проектах, в частности, для управления распределенными файлами и создания необходимой инфраструктуры [1]; HDFS – распределённая файловая система, Hadoop Далее …

HDFS

HDFS (Hadoop Distributed File System) — распределенная файловая система Hadoop

HDFS (Hadoop Distributed File System) — распределенная файловая система Hadoop для хранения файлов больших размеров с возможностью потокового доступа к информации, поблочно распределённой по узлам вычислительного кластера [1], который может состоять из произвольного аппаратного обеспечения [2]. Hadoop Distributed File System, как и любая файловая система – это иерархия каталогов с вложенными в них подкаталогами и файлами [3]. Применение Hadoop Distributed File System HDFS – неотъемлемая часть Hadoop, проекта верхнего уровня Apache Software Foundation, и основа инфраструктуры больших данных (Big Data). Однако, Hadoop поддерживает работу и с другими распределёнными файловыми системами, в частности, Amazon S3 и CloudStore. Также некоторые дистрибутивы Hadoop, например, MapR, реализуют свою аналогичную распределенную файловую систему – MapR File System [1]. HDFS может использоваться не только для запуска MapReduce-заданий, но Далее …

HDInsight

HDInsight — это корпоративный сервис с открытым кодом от Microsoft для облачной платформы Azure, позволяющий работать с кластером Apache Hadoop в облаке в рамках управления и аналитической работы с большими данными (Big Data).  Экосистема HDInsight Azure HDInsight – это облачная экосистема компонентов Apache Hadoop на основе платформы данных Hortonworks Data Platform (HDP) [1], которая поддерживает несколько версий кластера Hadoop. Каждая из версий создает конкретную версию платформы HDP и набор компонентов, содержащихся в этой версии. C 4 апреля 2017 г. Azure HDInsight по умолчанию использует версию кластера 3.6 на основе HDP 2.6. Кроме основных 4-х компонентов Hadoop (HDFS, YARN, Hadoop Common и Hadoop MapReduce), в состав версии 3.6 также входят следующие решения Apache Software Foundation [2]: Pig — высокоуровневый язык обработки данных и фреймворк Далее …

Hortonworks

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура, дистрибутив хортонворкс

Hortonworks Data Platform (HDP) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит Apache Software Foundation, адаптированных компанией Hortonworks для больших данных (Big Data) и машинного обучения (Machine Learning), бесплатно распространяемый и коммерчески поддерживаемый [1]. Помимо HDP, компания Hortonworks предлагает еще другие продукты для Big Data и Machine Learning, также основанные на проектах Apache Software Foundation [2]: Hortonworks DataFlow (HDF) –NiFi, Storm и Kafka; Сервисы Hortonworks DataPlane: Apache Atlas и Cloudbreak для интеграции со сторонними решениями. Состав и архитектура Hortonworks Кроме базового набора модулей Hadoop от Apache Software Foundation (HDFS, MapReduce, Yarn и Hadoop Common), HDP также содержит дополнительные решения Apache для работы с большими данными и машинным обучением: Flume, Sqoop, Falcon, NFS, WebHDFS для управления потоками данных; Kerberos, Далее …

KNOX

Apache KNOX — REST API и шлюз приложений для компонентов экосистемы Apache Hadoop, обеспечивает единую точку доступа для всех HTTP соединений с кластерами Apache Hadoop и систему единой аутентификации Single Sign On (SSO) для сервисов и пользовательского интерфейса компонент Apache Hadoop. В сочетании с средствами сетевой изоляции  и  аутентификацией Kerberos, KNOX Gateway обеспечивает интегрированное решение для интеграции средств управления корпоративной идентификацией  (Identity Management Systems), маскирование инфраструктуры кластера Hadoop для клиентов и упрощение доступа клиентов к сервисам кластера Apache Hadoop.           Список поддерживаемых сервисов: Ambari WebHDFS (HDFS) Yarn RM Stargate (Apache HBase) Apache Oozie Apache Hive/JDBC Apache Hive WebHCat (Templeton) Apache Storm Apache Tinkerpop — Gremlin Apache Avatica/Phoenix Apache SOLR Apache Livy (Spark REST Service) Kafka REST Proxy Далее …

MapR

мапр, MapRDataTechnologies

MapR Convergent Data Platform (MapRCDP) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит Apache Software Foundation, а также средств собственной разработки американской компании MapR для больших данных (Big Data) и машинного обучения (Machine Learning) [1]. Существует три версии MapRCDP: Community Edition (M3) — бесплатная версия сообщества; Enterprise Edition (M5) — обеспечивает высокую доступность и защиту данных, включая мультиузловый NFS; Enterprise Database Edition (M7) – включает данные структурированных таблиц изначально на уровне хранилища и предоставляет гибкую базу данных NoSQL. MapRCDP может быть установлен на многих версиях Red Hat Enterprise Linux, CentOS, Ubuntu, Oracle Linux и SUSE.  Состав и архитектура MapR Как и другие популярные дистрибутивы Hadoop (Cloudera, HortonWorks, ArenaData), кроме его основных модулей, MapR содержит дополнительные продукты для работы Далее …

Zookeeper

Apache  Zookeeper —  open source проект Apache Software Foundation , cервис-координатор обеспечивающий распределенную синхронизацию небольших по объему данных (конфигурационная информация, пространство имен)  для группы приложений. Zookeeper представляет из себя распределенное хранилище ключ-значение (key-value store) гарантирующий надежное консистентное(consistency)  хранение информации  за счет использования синхронной репликации между узлами, контроля версий, механизма очередей(queue)  и блокировок(lock). За счет использования оперативной памяти и масштабируемости обладает высокой скоростью  Сценарии использования Zookeeper: Распределенный сервер имен (namespace — topics для Kafka) Распределенная  конфигурация (Hadoop, Kafka) Распределенный членство в группах (распределенные сервисы Kafka, Hadoop) Выбор главного в распределенных системах с арбитражом(Leader election)