Hadoop

хадуп, Hadoop

Hadoop – это свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Эта основополагающая технология хранения и обработки больших данных (Big Data) является проектом верхнего уровня фонда Apache Software Foundation. Из чего состоит Hadoop: концептуальная архитектура Изначально проект разработан на Java в рамках вычислительной парадигмы MapReduce, когда приложение разделяется на большое количество одинаковых элементарных заданий, которые выполняются на распределенных компьютерах (узлах) кластера и сводятся в единый результат [1]. Проект состоит из основных 4-х модулей: Hadoop Common – набор инфраструктурных программных библиотек и утилит, которые используются в других решениях и родственных проектах, в частности, для управления распределенными файлами и создания необходимой инфраструктуры [1]; HDFS – распределённая файловая система, Hadoop Далее …

HDFS

HDFS (Hadoop Distributed File System) — распределенная файловая система Hadoop

HDFS (Hadoop Distributed File System) — распределенная файловая система Hadoop для хранения файлов больших размеров с возможностью потокового доступа к информации, поблочно распределённой по узлам вычислительного кластера [1], который может состоять из произвольного аппаратного обеспечения [2]. Hadoop Distributed File System, как и любая файловая система – это иерархия каталогов с вложенными в них подкаталогами и файлами [3]. Применение Hadoop Distributed File System HDFS – неотъемлемая часть Hadoop, проекта верхнего уровня Apache Software Foundation, и основа инфраструктуры больших данных (Big Data). Однако, Hadoop поддерживает работу и с другими распределёнными файловыми системами, в частности, Amazon S3 и CloudStore. Также некоторые дистрибутивы Hadoop, например, MapR, реализуют свою аналогичную распределенную файловую систему – MapR File System [1]. HDFS может использоваться не только для запуска MapReduce-заданий, но Далее …

HDInsight

HDInsight — это корпоративный сервис с открытым кодом от Microsoft для облачной платформы Azure, позволяющий работать с кластером Apache Hadoop в облаке в рамках управления и аналитической работы с большими данными (Big Data).  Экосистема HDInsight Azure HDInsight – это облачная экосистема компонентов Apache Hadoop на основе платформы данных Hortonworks Data Platform (HDP) [1], которая поддерживает несколько версий кластера Hadoop. Каждая из версий создает конкретную версию платформы HDP и набор компонентов, содержащихся в этой версии. C 4 апреля 2017 г. Azure HDInsight по умолчанию использует версию кластера 3.6 на основе HDP 2.6. Кроме основных 4-х компонентов Hadoop (HDFS, YARN, Hadoop Common и Hadoop MapReduce), в состав версии 3.6 также входят следующие решения Apache Software Foundation [2]: Pig — высокоуровневый язык обработки данных и фреймворк Далее …

Hive

Apache Hive — это SQL интерфейс доступа к данным для платформы Apache Hadoop. Hive позволяет выполнять запросы, агрегировать и анализировать данные используя SQL синтаксис. Для данных хранящихся на файловой системе HDFS используется схема доступа на чтение позволяющая обращаться с данными как с обыкновенной таблицей или базой данных. Запросы HiveQL при этом в Java код команды  исполняемые MapReduce.   Запросы Hive создаются на языке запросов HiveQL, который основан на языке SQL, но не имеет полной поддержки стандарта SQL-92. В то же время этот язык позволяет программистам использовать их собственные запросы, когда неудобно или неэффективно использовать логику в HiveQL. HiveQL может быть расширен с помощью пользовательских скалярных функций (UDF), агрегаций (UDAF кодов), и табличных функций (UDTF). Архитектура HIVE: Название компонента Описание UI Пользовательский интерфейс Позволяет Далее …

Hortonworks

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура, дистрибутив хортонворкс

Hortonworks Data Platform (HDP) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит Apache Software Foundation, адаптированных компанией Hortonworks для больших данных (Big Data) и машинного обучения (Machine Learning), бесплатно распространяемый и коммерчески поддерживаемый [1]. Помимо HDP, компания Hortonworks предлагает еще другие продукты для Big Data и Machine Learning, также основанные на проектах Apache Software Foundation [2]: Hortonworks DataFlow (HDF) –NiFi, Storm и Kafka; Сервисы Hortonworks DataPlane: Apache Atlas и Cloudbreak для интеграции со сторонними решениями. Состав и архитектура Hortonworks Кроме базового набора модулей Hadoop от Apache Software Foundation (HDFS, MapReduce, Yarn и Hadoop Common), HDP также содержит дополнительные решения Apache для работы с большими данными и машинным обучением: Flume, Sqoop, Falcon, NFS, WebHDFS для управления потоками данных; Kerberos, Далее …