AirFlow

Что такое AirFlow

Airflow — это инструмент, который позволяет разрабатывать, планировать и осуществлять мониторинг сложных рабочих процессов. Главной особенностью является то, что для описания процессов используется язык программирования Python. Apache Airflow используется как планировщик ETL/ELT-процессов. Основные сущности рабочего процесса на Airflow: Направленные ациклические графы (DAG) Планировщик (Scheduler) Операторы (Operators) Задачи (Tasks)

Kafka

Apache Kafka — распределенный программный брокер сообщений поддерживающий транзакционность при работе с потребителями и поставщиками событий: публикует и подписывается на поток записей подобно очереди сообщений и корпоративной системе сообщений хранит поток записей (событий) обеспечивая отказоустойчивость и надежность обрабатывает поток записей (событий) по мере поступления Apache Kafka обычно используется как Event Processing System (система обработки событий) для двух классов приложений: построение потоков каналов данных в режиме реального времени (real-time streaming data pipelines)  с надежность. получения данных между системами и приложениями построение Далее …

KSQL

KSQL — это движок SQL для Apache Kafka, который может использоваться для анализа данных в режиме реального времени с использованием операторов SQL вместо написания большого количества кода на Java. KSQL, построенный на основе API Kafka Streams, поддерживает операции обработки потоков, такие как фильтрация, преобразования, агрегации, соединения, оконные операции и сессии.

Zookeeper

Apache  Zookeeper —  open source проект Apache Software Foundation , cервис-координатор обеспечивающий распределенную синхронизацию небольших по объему данных (конфигурационная информация, пространство имен)  для группы приложений. Zookeeper представляет из себя распределенное хранилище ключ-значение (key-value store) гарантирующий надежное консистентное(consistency)  хранение информации  за счет использования синхронной репликации между узлами, контроля версий, механизма очередей(queue)  и блокировок(lock). За счет использования оперативной памяти и масштабируемости обладает высокой скоростью  Сценарии использования Zookeeper: Распределенный сервер имен (namespace — topics для Kafka) Распределенная  конфигурация (Hadoop, Kafka) Распределенный членство в группах (распределенные сервисы Далее …