Apache AirFlow

Что такое AirFlow

Apache AirFlow — это инструмент, который позволяет разрабатывать, планировать и осуществлять мониторинг сложных рабочих процессов. Главной особенностью является то, что для описания процессов используется язык программирования Python. Apache Airflow используется как планировщик ETL/ELT-процессов. Основные сущности рабочего процесса на Apache Airflow: Направленные ациклические графы (DAG) Планировщик (Scheduler) Операторы (Operators) Задачи (Tasks) AIRF: Apache AirFlow Что такое AirFlow?

Arenadata

Arenadata Hadoop — корпоративная платформа для обработки данных с открытым исходным кодом, представляет собой полноценный дистрибутив распределенной платформы хранения на базе Apache Hadoop. Для российских пользователей Arenadata Hadoop предлагает поддержку в России и на русском языке, с полным набором возможностей по автоматическому развертыванию в облаке и on-premises. оригинальтная документация ня русском языке, и удаленная или on-site поддержка. Сайт компании производителя Аренадата 

Hive

Apache Hive — это SQL интерфейс доступа к данным для платформы Apache Hadoop. Hive позволяет выполнять запросы, агрегировать и анализировать данные используя SQL синтаксис. Для данных хранящихся на файловой системе HDFS используется схема доступа на чтение позволяющая обращаться с данными как с обыкновенной таблицей или базой данных. Запросы HiveQL при этом в Java код команды  исполняемые MapReduce.   Запросы Hive создаются на языке запросов HiveQL, который основан на языке SQL, но не имеет полной поддержки стандарта SQL-92. В то же время этот язык позволяет программистам использовать их собственные запросы, когда неудобно или неэффективно использовать логику в HiveQL. HiveQL может быть расширен с помощью пользовательских скалярных функций (UDF), агрегаций (UDAF кодов), и табличных функций (UDTF). Архитектура HIVE: Название компонента Описание UI Пользовательский интерфейс Позволяет Далее …

Kafka

Apache Kafka — распределенный программный брокер сообщений поддерживающий транзакционность при работе с потребителями и поставщиками событий: публикует и подписывается на поток записей подобно очереди сообщений и корпоративной системе сообщений хранит поток записей (событий) обеспечивая отказоустойчивость и надежность обрабатывает поток записей (событий) по мере поступления Apache Kafka обычно используется как Event Processing System (система обработки событий) для двух классов приложений: построение потоков каналов данных в режиме реального времени (real-time streaming data pipelines)  с надежность. получения данных между системами и приложениями построение потоковых приложений работающих в режиме реального времени (real-time streaming applications) которые трансформируют или реагируют на данные потока или более красочно от Confluent  Apache Kafka, a Distributed Streaming Platform Проект Apache Kafka https://kafka.apache.org Почитать про Kafka  и попробовать https://www.confluent.io/product/confluent-platform/ Учебные курсы  по Kafka на Далее …

KNOX

Apache KNOX — REST API и шлюз приложений для компонентов экосистемы Apache Hadoop, обеспечивает единую точку доступа для всех HTTP соединений с кластерами Apache Hadoop и систему единой аутентификации Single Sign On (SSO) для сервисов и пользовательского интерфейса компонент Apache Hadoop. В сочетании с средствами сетевой изоляции  и  аутентификацией Kerberos, KNOX Gateway обеспечивает интегрированное решение для интеграции средств управления корпоративной идентификацией  (Identity Management Systems), маскирование инфраструктуры кластера Hadoop для клиентов и упрощение доступа клиентов к сервисам кластера Apache Hadoop.           Список поддерживаемых сервисов: Ambari WebHDFS (HDFS) Yarn RM Stargate (Apache HBase) Apache Oozie Apache Hive/JDBC Apache Hive WebHCat (Templeton) Apache Storm Apache Tinkerpop — Gremlin Apache Avatica/Phoenix Apache SOLR Apache Livy (Spark REST Service) Kafka REST Proxy Далее …

KSQL

KSQL — это движок SQL для Apache Kafka, который может использоваться для анализа данных в режиме реального времени с использованием операторов SQL вместо написания большого количества кода на Java. KSQL, построенный на основе API Kafka Streams, поддерживает операции обработки потоков, такие как фильтрация, преобразования, агрегации, соединения, оконные операции и сессии.

NiFi

Управление потоками данных с использованием Apache NiFi

Apache NiFi простая платформа обработки событий (сообщений), предоставляющая возможности управления потоками данных из разнообразных источников в режиме реального времени с использованием графического интерфейса. Программа Apache NiFi написана на Java  и была разработана Агентством Национальной Безопасности  (NSA) под кодовым названием «Niagara Files» для диспетчеризации данных поддерживающих работу как  с разнообразными небольшими сетевыми граничными устройствами, такими как Raspberry Pi. так и крупными кластерами данных и облачной инфраструктурой.  Apache NiFi использует концепцию потока рассматриваемую как последовательность операций(таких как передача, преобразование данных, обогащение данных) над последовательностью отдельных событий (events),  вместо того чтобы рассматривать поток как большая batch операция, требующая выполнения первоначальной загрузки всех данных  перед тем как начать процессинг. База данных SQL с миллионами строк данных,  таким образом рассматривается Apache NiFi как милионы отдельных строк требующие Далее …

Zookeeper

Apache  Zookeeper —  open source проект Apache Software Foundation , cервис-координатор обеспечивающий распределенную синхронизацию небольших по объему данных (конфигурационная информация, пространство имен)  для группы приложений. Zookeeper представляет из себя распределенное хранилище ключ-значение (key-value store) гарантирующий надежное консистентное(consistency)  хранение информации  за счет использования синхронной репликации между узлами, контроля версий, механизма очередей(queue)  и блокировок(lock). За счет использования оперативной памяти и масштабируемости обладает высокой скоростью  Сценарии использования Zookeeper: Распределенный сервер имен (namespace — topics для Kafka) Распределенная  конфигурация (Hadoop, Kafka) Распределенный членство в группах (распределенные сервисы Kafka, Hadoop) Выбор главного в распределенных системах с арбитражом(Leader election)