Каждый дата-инженер, который работает с Apache Airflow, сталкивался с сигналом SIGTERM, который отправляется задачам и приводит к сбою DAG. Сегодня рассмотрим, почему случается исключение airflow.exceptions.AirflowException, которое генерирует этот сигнал, и…
Метка: ETL
Потоки и пакеты: сходства, отличия и примеры применения
Автор Анна ВичуговаКатегория СтатьиСегодня рассмотрим 2 основные категории технологий обработки данных: пакетную и потоковую. Что общего между batch и stream processing, где они применяются, какими технологиями поддерживаются, можно ли их использовать вместе и…
Apache NiFi 1.16.3: обзор июньского релиза 2022
Автор Анна ВичуговаКатегория NiFi, Статьи15 июня 2022 года вышел новый выпуск Apache NiFi. Разбираем, что нового и полезного в релизе 1.16.3: исправленные ошибки, а также улучшения, важные для дата-инженера и администратора кластера Apache NiFi.…
Атомарность и идемпотентность в Apache AirFlow
Автор Анна ВичуговаКатегория AirFlow, СтатьиВ этой статье для обучения дата-инженеров рассмотрим практическое применение 2-х важных принципов обработки данных: атомарность и идемпотентность задач в Apache Airflow. Читайте далее, как применить их к своим ETL-конвейерам, чтобы…
Data Fabric и Data Mesh: versus или вместе?
Автор Анна ВичуговаКатегория Статьи, Цифровая трансформацияВ недавней статье про современные архитектуры данных мы упоминали Data Fabric и Data Mesh. Сегодня поговорим про эти стратегии Data Governance более подробно: разберем их главные достоинства и недостатки, основные…
Реестр Apache NiFi в Kubernetes: как легко развернуть и безопасно использовать
Автор Анна ВичуговаКатегория NiFi, СтатьиМы уже писали о преимуществах развертывания Apache NiFi на Kubernetes, а также сложностях практической реализации этого процесса. Сегодня поговорим о контейнеризации реестра NiFi с использованием Helm-диаграмм, а также совмещения с…
Динамическое сопоставление задач в Apache AirFlow 2.3
Автор Анна ВичуговаКатегория AirFlow, СтатьиНедавно мы писали про Apache AirFlow 2.3.0 от 30 апреля 2022 года. Сегодня более подробно разберем одну из главных новинок этого релиза – динамическое сопоставление задач. Что это такое, как…
От Лямбда до Data Mesh: 7 архитектур данных для Big Data систем
Автор Анна ВичуговаКатегория Machine Learning, Use Cases, СтатьиЧто такое архитектура данных, какие модели чаще всего используются в современных Big Data системах, почему традиционные BI-системы не справляются со всем разнообразием текущих бизнес-сценариев, чем Лямбда отличается от Каппа, а…
Детективная история про SCR-конфигурации HDFS в региональных серверах Apache HBase
Автор Анна ВичуговаКатегория HBase, СтатьиВ этой статье для обучения дата-инженеров и администраторов кластера Apache HBase разберем, почему региональные сервера могут работать некорректно при высокой нагрузке и при чем здесь SCR-конфигурация файловой системы Hadoop. Что…
5 достоинств и 3 недостатка скриптовых компонентов Apache NiFi
Автор Анна ВичуговаКатегория NiFi, СтатьиВ этой статье для дата-инженеров разберемся, что такое NiFi Scripted Components и как они заполняют пробел между скриптами и пользовательскими компонентами: процессорами, контроллерами, сообщениями и средствами их чтения/записи. Рассмотрим примеры…