Что такое Apache Hop: еще одна альтернатива AirFlow

Автор Категория ,
Что такое Apache Hop: еще одна альтернатива AirFlow

При том, что Apache Airflow сегодня считается главным инструментом дата-инженерии, он далеко не единственное средство оркестрации пакетных заданий и построения конвейеров обработки больших данных. В рамках продвижения наших курсов для…

Строим масштабируемые ETL/ELT-конвейеры обработки данных с Apache Spark и AirFlow: 4 совета дата-инженеру

Автор Категория , ,
Строим масштабируемые ETL/ELT-конвейеры обработки данных с Apache Spark и AirFlow: 4 совета дата-инженеру

В этой статье для дата-инженеров мы собрали лучшие практики построения масштабируемых конвейеров обработки данных, а также популярные рекомендации по проектированию ETL/ELT-процессов с Apache Spark, AirFlow и другими технологиями Big Data.…

Создавайте графы в Apache Airflow с помощью TaskFlow API

Автор Категория ,
Создавайте графы в Apache Airflow с помощью TaskFlow API

В предыдущей статье мы говорили о том, как начать работать с Apache Airflow. Сегодня пойдет речь о новом инструменте, появившемся в Airflow 2, — TaskFlow API. Он обеспечивает кросс-коммуникацию между…

Безопасность в режиме онлайн: SIEM-система на базе Apache NiFi от Cloudera

Автор Категория , , ,
Безопасность в режиме онлайн: SIEM-система на базе Apache NiFi от Cloudera

В этой статье для дата-инженеров рассмотрим, что такое Cloudera Flow Management и как это позволяет ускорить аналитику больших данных в кейсах информационной безопасности. Читайте далее о преимуществах SIEM-анализа, преобразования и…

Как Apache AirFlow под капотом Zapier обеспечивает low-code интеграцию веб-приложений

Автор Категория ,
Как Apache AirFlow под капотом Zapier обеспечивает low-code интеграцию веб-приложений

Инженерия данных нужна не только большим компаниям с крупными Big Data проектами. Сегодня рассмотрим, как Apache AirFlow повышает эффективность low-code фреймворка Zapier с помощью своего REST API и Amazon SQS.…

Как упростить загрузку данных в Data Lake с Apache AirFlow

Автор Категория ,
Как упростить загрузку данных в Data Lake с Apache AirFlow

Чтобы добавить в курсы по Apache AirFlow еще больше полезных примеров, сегодня рассмотрим, как избежать дублирования кода при загрузке данных. Этот пример пригодится дата-инженерам в работе с ELT-процессами наполнения информацией…

В помощь дата-инженеру: 3 главных плюса реестра провайдеров Apache Airflow от Astronomer

Автор Категория ,
В помощь дата-инженеру: 3 главных плюса реестра провайдеров Apache Airflow от Astronomer

Мы уже писали про преимущества разделения пакетов в Apache AirFlow 2.0. Сегодня рассмотрим, как открытый реестр Python-пакетов от компании Astronomer облегчает разработку конвейеров обработки данных, чем провайдеры отличаются от модулей…

Динамическая генерация DAG в Apache Airflow: 5 способов автоматизации рутинных задач

Автор Категория ,
Динамическая генерация DAG в Apache Airflow: 5 способов автоматизации рутинных задач

Сегодня рассмотрим, как упростить работу дата-инженера в Apache AirFlow, автоматизировав процесс создания DAG’ов из одного или нескольких Python-файлов. На практических примерах разберем достоинства и недостатки 5 способов динамической генерации, а…

Лучшие практики разработки Big Data pipeline’ов в Apache Airflow: 10 советов дата-инженеру

Автор Категория ,
Лучшие практики разработки Big Data pipeline’ов в Apache Airflow: 10 советов дата-инженеру

В рамках практического обучения дата-инженеров сегодня мы собрали 10 лучших практик проектирования конвейеров обработки данных в рамках Apache AirFlow, которые касаются не только особенностей этого фреймворка. Также рассмотрим, какие принципы…

3 вопроса про Apache NiFi от дата-инженеров: отвечает Cloudera

Автор Категория , , ,
3 вопроса про Apache NiFi от дата-инженеров: отвечает Cloudera

Запуская наш новый курс по Apache NiFi для инженеров данных, сегодня рассмотрим 3 популярных вопроса про этот Big Data фреймворк с комментариями компании Cloudera. Читайте далее, может ли NiFi заменить…