Как упростить загрузку данных в Data Lake с Apache AirFlow

Автор Категория ,
Как упростить загрузку данных в Data Lake с Apache AirFlow

Чтобы добавить в курсы по Apache AirFlow еще больше полезных примеров, сегодня рассмотрим, как избежать дублирования кода при загрузке данных. Этот пример пригодится дата-инженерам в работе с ELT-процессами наполнения информацией…

В помощь дата-инженеру: 3 главных плюса реестра провайдеров Apache Airflow от Astronomer

Автор Категория ,
В помощь дата-инженеру: 3 главных плюса реестра провайдеров Apache Airflow от Astronomer

Мы уже писали про преимущества разделения пакетов в Apache AirFlow 2.0. Сегодня рассмотрим, как открытый реестр Python-пакетов от компании Astronomer облегчает разработку конвейеров обработки данных, чем провайдеры отличаются от модулей…

Динамическая генерация DAG в Apache Airflow: 5 способов автоматизации рутинных задач

Автор Категория ,
Динамическая генерация DAG в Apache Airflow: 5 способов автоматизации рутинных задач

Сегодня рассмотрим, как упростить работу дата-инженера в Apache AirFlow, автоматизировав процесс создания DAG’ов из одного или нескольких Python-файлов. На практических примерах разберем достоинства и недостатки 5 способов динамической генерации, а…

Лучшие практики разработки Big Data pipeline’ов в Apache Airflow: 10 советов дата-инженеру

Автор Категория ,
Лучшие практики разработки Big Data pipeline’ов в Apache Airflow: 10 советов дата-инженеру

В рамках практического обучения дата-инженеров сегодня мы собрали 10 лучших практик проектирования конвейеров обработки данных в рамках Apache AirFlow, которые касаются не только особенностей этого фреймворка. Также рассмотрим, какие принципы…

Кастомизация Apache Airflow: мониторинг исполнения Big Data pipeline’ов со своими KPI

Автор Категория , ,
Кастомизация Apache Airflow: мониторинг исполнения Big Data pipeline’ов со своими KPI

Добавляя в наши курсы по Apache AirFlow еще больше полезных практик, сегодня разберем опыт дата-инженеров американской компании Groupon по настройке этого фреймворка. Читайте далее, как добавить собственные KPI исполнения конвейеров…

В помощь дата-инженеру: 3 DAG для самообслуживания Apache Airflow

Автор Категория ,
В помощь дата-инженеру: 3 DAG для самообслуживания Apache Airflow

Развивая наши курсы по Apache AirFlow для дата-инженеров и администраторов, сегодня рассмотрим, как автоматизировать обслуживание этого фреймворка, запуская поддерживающие операции как рабочие задачи по расписанию. В этой статье разбираем опыт…

Совершенно секретно: 5 советов по управлению секретами в Apache Airflow

Автор Категория ,
Совершенно секретно: 5 советов по управлению секретами в Apache Airflow

В сферу ответственности дата-инженера входит не только проектирование быстрых и производительных конвейеров обработки данных, но обеспечение их надежности, в т.ч. с точки зрения информационной безопасности. Сегодня рассмотрим, как управлять чувствительной…

Как повысить эффективность Apache Airflow в 3 раза с помощью прокси-сервера RDS

Автор Категория , ,
Как повысить эффективность Apache Airflow в 3 раза с помощью прокси-сервера RDS

Увеличение пропускной способности и повышение скорости обработки данных на любой Big Data платформе при приемлемых затратах – одна из главных задач дата-инженера. Сегодня мы рассмотрим, как улучшить производительность множества экземпляров…

Не только AirFlow: как упростить тестирование и отладку Big Data конвейеров из Spark-приложений с Dagster

Автор Категория , ,
Не только AirFlow: как упростить тестирование и отладку Big Data конвейеров из Spark-приложений с Dagster

Apache Spark + AirFlow – известная каждому дата-инженеру комбинация технологий Big Data для запуска сложных конвейеров обработки данных. Но совместное использование этих фреймворков ограничено недостатками AirFlow, часть из которых можно…

Практическая дата-инженерия: мониторинг data pipeline’ов в Apache Airflow и Dagster

Автор Категория ,
Практическая дата-инженерия: мониторинг data pipeline’ов в Apache Airflow и Dagster

Apache AirFlow – это не только инструмент планирования batch-процессов, но и средство мониторинга ETL-задач и конвейеров обработки данных. Однако, наблюдать за выполнением data pipeline’а в веб-интерфейсе этого фреймворка не всегда…