SIGTERM в Apache Airflow: 4 причины сбоя задач и способы их исправления

Автор Категория ,
SIGTERM в Apache Airflow: 4 причины сбоя задач и способы их исправления

Каждый дата-инженер, который работает с Apache Airflow, сталкивался с сигналом SIGTERM, который отправляется задачам и приводит к сбою DAG. Сегодня рассмотрим, почему случается исключение airflow.exceptions.AirflowException, которое генерирует этот сигнал, и…

Атомарность и идемпотентность в Apache AirFlow

Автор Категория ,
Атомарность и идемпотентность в Apache AirFlow

В этой статье для обучения дата-инженеров рассмотрим практическое применение 2-х важных принципов обработки данных: атомарность и идемпотентность задач в Apache Airflow. Читайте далее, как применить их к своим ETL-конвейерам, чтобы…

Динамическое сопоставление задач в Apache AirFlow 2.3

Автор Категория ,
Динамическое сопоставление задач в Apache AirFlow 2.3

Недавно мы писали про Apache AirFlow 2.3.0 от 30 апреля 2022 года. Сегодня более подробно разберем одну из главных новинок этого релиза – динамическое сопоставление задач. Что это такое, как…

Apache Airflow 2.3: что нового?

Автор Категория ,
Apache Airflow 2.3: что нового?

30 апреля 2022 года вышел новый релиз Apache Airflow, который содержит более 700 коммитов с предыдущей версии 2.2.0 и включает 50 новых функций, 99 улучшений, 85 исправлений ошибок и несколько…

CI/CD для дата-инженера: разработка DAG и развертывание в среде Airflow с GitLab

Автор Категория ,
CI/CD для дата-инженера: разработка DAG и развертывание в среде Airflow с GitLab

Интеграция Apache Airflow с инструментами CI/CD является одной из лучших практик современной дата-инженерии, о чем мы недавно писали. Читайте далее, зачем нужно управлять кодом DAG с помощью популярных систем управления…

Еще 3 совета Astronomer для лучшей оркестрации данных с Apache AirFlow

Автор Категория ,
Еще 3 совета Astronomer для лучшей оркестрации данных с Apache AirFlow

В продолжение недавней статьи для дата-инженеров по эффективной работе с Apache AirFlow, сегодня разберем еще несколько рекомендаций от компании Astronomer, которая продвигает и коммерциализирует этот ETL-оркестратор. Чем полезна микрооркестрация с…

ТОП-3 практики оркестрации данных с Apache AirFlow: советы Astronomer

Автор Категория ,
ТОП-3 практики оркестрации данных с Apache AirFlow: советы Astronomer

Сегодня рассмотрим несколько рекомендаций по построению масштабной и устойчивой экосистемы интеграции корпоративных данных на базе Apache AirFlow от компании Astronomer, которая активно способствует продвижению и коммерциализации этого популярного инструмента дата-инженерии.…

Автосоздание CLI в Apache Airflow с Python Fire вместо Python-оператора

Автор Категория ,
Автосоздание CLI в Apache Airflow с Python Fire вместо Python-оператора

Почему следует избегать PythonOperator в конвейере обработки пакетных данных на Apache Airflow и что использовать вместо этого оператора для описания задач DAG. Когда лаконичный CLI лучше наглядного GUI, где и как…

Бессерверный Apache Spark в Google Dataproc

Автор Категория , ,
Бессерверный Apache Spark в Google Dataproc

Недавно в Google Dataproc появился бессерверный Apache Spark. Разбираемся, что это такое и зачем нужно дата-инженерам. Как работает serverless Spark в облачной платформе Google и почему выбирать между Dataflow и…

Istio для Apache Airflow в Kubernetes: проблемы и решения

Автор Категория ,
Istio для Apache Airflow в Kubernetes: проблемы и решения

Запуск Apache Airflow с Kubernetes сегодня стал стандартом де-факто. Однако, при практическом развертывании Airflow с помощью исполнителя Kubernetes и оператора пода в кластере этой платформы оркестрации контейнерных приложений возникает множество препятствий…