Что такое AirFlow?

Планируем рабочие процессы вместе с Apache Airflow Почему Apache Airflow? Большинство процессов обработки данных строятся на определении набора «задач» для извлечения, анализа, преобразования, загрузки и хранения данных. Например, последовательность обработки данных может состоять из таких задач, как чтение логов из S3, создание задания Spark для извлечения соответствующих объектов, индексирование объектов с помощью Solr и обновление существующего индекса для расширения поиска. Чтобы автоматизировать процесс и запускать его еженедельно, вы можете использовать планировщик времени, например Cron, определяя рабочие процессы в Crontab. Это действительно отлично подходит для простых рабочих процессов, но все становится хуже, когда вы начинаете поддерживать рабочий процесс в крупных проектах, где между элементами существуют зависимости. Еще это усложняется, если вы ждете каких-то входных данных от сторонних разработчиков, или другие команды Далее …

KSQL — для тех кто любит Kafka и не знает Java

KSQL — это движок SQL с открытым исходным кодом для Apache Kafka. Он обеспечивает простой, но мощный интерактивный SQL интерфейс для потоковой обработки на Kafka, без необходимости писать код на языке программирования, таком как Java или Python.  SELECT * FROM payments-kafka-stream WHERE fraud_probability > 0.8                                                                    KSQL поддерживает широкий спектр потоковых операций, включая фильтрацию данных, преобразования, агрегации, соединения, оконные операции и сессии. Он является масштабируемым, отказоустойчивым и позволяет в режиме реального времени удовлетворить потребности бизнеса в данных.  Теперь вы можете задаться вопросом, для чего я могу использовать KSQL? Вот несколько Далее …