Cloudera

Cloudera CDH (Cloudera’s Distribution including Apache Hadoop) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит, разработанных компанией Cloudera для больших данных (Big Data) и машинного обучения (Machine Learning), бесплатно распространяемый и коммерчески поддерживаемый для некоторых Linux-систем (Red Hat, CentOS, Ubuntu, SuSE SLES, Debian) [1]. Состав и архитектура Клаудера CDH Помимо классического Hadoop от Apache Software Foundation, состоящего из 4-х основных модулей (HDFS, MapReduce, Yarn и Hadoop Common), CDH также содержит дополнительные решения Apache для работы с большими данными и машинным обучением: инструменты для управления потоками данных (Flume, Sqoop); фреймворки распределённой и потоковой обработки, а также брокеры сообщений (Spark, Kafka) СУБД для Big Data аналитики (HBase, Hive, Impala); высокоуровневый процедурный язык для выполнения запросов к большим слабоструктурированным наборам данных Далее …

Hadoop

хадуп, Hadoop

Hadoop – это свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Эта основополагающая технология хранения и обработки больших данных (Big Data) является проектом верхнего уровня фонда Apache Software Foundation. Из чего состоит Hadoop: концептуальная архитектура Изначально проект разработан на Java в рамках вычислительной парадигмы MapReduce, когда приложение разделяется на большое количество одинаковых элементарных заданий, которые выполняются на распределенных компьютерах (узлах) кластера и сводятся в единый результат [1]. Проект состоит из основных 4-х модулей: Hadoop Common – набор инфраструктурных программных библиотек и утилит, которые используются в других решениях и родственных проектах, в частности, для управления распределенными файлами и создания необходимой инфраструктуры [1]; HDFS – распределённая файловая система, Hadoop Далее …

HDFS

HDFS (Hadoop Distributed File System) — распределенная файловая система Hadoop

HDFS (Hadoop Distributed File System) — распределенная файловая система Hadoop для хранения файлов больших размеров с возможностью потокового доступа к информации, поблочно распределённой по узлам вычислительного кластера [1], который может состоять из произвольного аппаратного обеспечения [2]. Hadoop Distributed File System, как и любая файловая система – это иерархия каталогов с вложенными в них подкаталогами и файлами [3]. Применение Hadoop Distributed File System HDFS – неотъемлемая часть Hadoop, проекта верхнего уровня Apache Software Foundation, и основа инфраструктуры больших данных (Big Data). Однако, Hadoop поддерживает работу и с другими распределёнными файловыми системами, в частности, Amazon S3 и CloudStore. Также некоторые дистрибутивы Hadoop, например, MapR, реализуют свою аналогичную распределенную файловую систему – MapR File System [1]. HDFS может использоваться не только для запуска MapReduce-заданий, но Далее …

HDInsight

HDInsight — это корпоративный сервис с открытым кодом от Microsoft для облачной платформы Azure, позволяющий работать с кластером Apache Hadoop в облаке в рамках управления и аналитической работы с большими данными (Big Data).  Экосистема HDInsight Azure HDInsight – это облачная экосистема компонентов Apache Hadoop на основе платформы данных Hortonworks Data Platform (HDP) [1], которая поддерживает несколько версий кластера Hadoop. Каждая из версий создает конкретную версию платформы HDP и набор компонентов, содержащихся в этой версии. C 4 апреля 2017 г. Azure HDInsight по умолчанию использует версию кластера 3.6 на основе HDP 2.6. Кроме основных 4-х компонентов Hadoop (HDFS, YARN, Hadoop Common и Hadoop MapReduce), в состав версии 3.6 также входят следующие решения Apache Software Foundation [2]: Pig — высокоуровневый язык обработки данных и фреймворк Далее …

Hortonworks

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура, дистрибутив хортонворкс

Hortonworks Data Platform (HDP) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит Apache Software Foundation, адаптированных компанией Hortonworks для больших данных (Big Data) и машинного обучения (Machine Learning), бесплатно распространяемый и коммерчески поддерживаемый [1]. Помимо HDP, компания Hortonworks предлагает еще другие продукты для Big Data и Machine Learning, также основанные на проектах Apache Software Foundation [2]: Hortonworks DataFlow (HDF) –NiFi, Storm и Kafka; Сервисы Hortonworks DataPlane: Apache Atlas и Cloudbreak для интеграции со сторонними решениями. Состав и архитектура Hortonworks Кроме базового набора модулей Hadoop от Apache Software Foundation (HDFS, MapReduce, Yarn и Hadoop Common), HDP также содержит дополнительные решения Apache для работы с большими данными и машинным обучением: Flume, Sqoop, Falcon, NFS, WebHDFS для управления потоками данных; Kerberos, Далее …

MapR

мапр, MapRDataTechnologies

MapR Convergent Data Platform (MapRCDP) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит Apache Software Foundation, а также средств собственной разработки американской компании MapR для больших данных (Big Data) и машинного обучения (Machine Learning) [1]. Существует три версии MapRCDP: Community Edition (M3) — бесплатная версия сообщества; Enterprise Edition (M5) — обеспечивает высокую доступность и защиту данных, включая мультиузловый NFS; Enterprise Database Edition (M7) – включает данные структурированных таблиц изначально на уровне хранилища и предоставляет гибкую базу данных NoSQL. MapRCDP может быть установлен на многих версиях Red Hat Enterprise Linux, CentOS, Ubuntu, Oracle Linux и SUSE.  Состав и архитектура MapR Как и другие популярные дистрибутивы Hadoop (Cloudera, HortonWorks, ArenaData), кроме его основных модулей, MapR содержит дополнительные продукты для работы Далее …