Каждый дата-инженер, который работает с Apache Airflow, сталкивался с сигналом SIGTERM, который отправляется задачам и приводит к сбою DAG. Сегодня рассмотрим, почему случается исключение airflow.exceptions.AirflowException, которое генерирует этот сигнал, и…
Рубрика: AirFlow
Атомарность и идемпотентность в Apache AirFlow
Автор Анна ВичуговаКатегория AirFlow, СтатьиВ этой статье для обучения дата-инженеров рассмотрим практическое применение 2-х важных принципов обработки данных: атомарность и идемпотентность задач в Apache Airflow. Читайте далее, как применить их к своим ETL-конвейерам, чтобы…
Динамическое сопоставление задач в Apache AirFlow 2.3
Автор Анна ВичуговаКатегория AirFlow, СтатьиНедавно мы писали про Apache AirFlow 2.3.0 от 30 апреля 2022 года. Сегодня более подробно разберем одну из главных новинок этого релиза – динамическое сопоставление задач. Что это такое, как…
Apache Airflow 2.3: что нового?
Автор Анна ВичуговаКатегория AirFlow, Статьи30 апреля 2022 года вышел новый релиз Apache Airflow, который содержит более 700 коммитов с предыдущей версии 2.2.0 и включает 50 новых функций, 99 улучшений, 85 исправлений ошибок и несколько…
CI/CD для дата-инженера: разработка DAG и развертывание в среде Airflow с GitLab
Автор Анна ВичуговаКатегория AirFlow, СтатьиИнтеграция Apache Airflow с инструментами CI/CD является одной из лучших практик современной дата-инженерии, о чем мы недавно писали. Читайте далее, зачем нужно управлять кодом DAG с помощью популярных систем управления…
Еще 3 совета Astronomer для лучшей оркестрации данных с Apache AirFlow
Автор Анна ВичуговаКатегория AirFlow, СтатьиВ продолжение недавней статьи для дата-инженеров по эффективной работе с Apache AirFlow, сегодня разберем еще несколько рекомендаций от компании Astronomer, которая продвигает и коммерциализирует этот ETL-оркестратор. Чем полезна микрооркестрация с…
ТОП-3 практики оркестрации данных с Apache AirFlow: советы Astronomer
Автор Анна ВичуговаКатегория AirFlow, СтатьиСегодня рассмотрим несколько рекомендаций по построению масштабной и устойчивой экосистемы интеграции корпоративных данных на базе Apache AirFlow от компании Astronomer, которая активно способствует продвижению и коммерциализации этого популярного инструмента дата-инженерии.…
Автосоздание CLI в Apache Airflow с Python Fire вместо Python-оператора
Автор Анна ВичуговаКатегория AirFlow, СтатьиПочему следует избегать PythonOperator в конвейере обработки пакетных данных на Apache Airflow и что использовать вместо этого оператора для описания задач DAG. Когда лаконичный CLI лучше наглядного GUI, где и как…
Бессерверный Apache Spark в Google Dataproc
Автор Анна ВичуговаКатегория AirFlow, Spark, СтатьиНедавно в Google Dataproc появился бессерверный Apache Spark. Разбираемся, что это такое и зачем нужно дата-инженерам. Как работает serverless Spark в облачной платформе Google и почему выбирать между Dataflow и…
Istio для Apache Airflow в Kubernetes: проблемы и решения
Автор Анна ВичуговаКатегория AirFlow, СтатьиЗапуск Apache Airflow с Kubernetes сегодня стал стандартом де-факто. Однако, при практическом развертывании Airflow с помощью исполнителя Kubernetes и оператора пода в кластере этой платформы оркестрации контейнерных приложений возникает множество препятствий…