Apache Airflow 2.3: что нового?

Автор Категория ,
Apache Airflow 2.3: что нового?

30 апреля 2022 года вышел новый релиз Apache Airflow, который содержит более 700 коммитов с предыдущей версии 2.2.0 и включает 50 новых функций, 99 улучшений, 85 исправлений ошибок и несколько…

Как быстро и безопасно удалять брокеры из кластера Kafka: решение от Confluent

Автор Категория ,
Как быстро и безопасно удалять брокеры из кластера Kafka: решение от Confluent

Сегодня рассмотрим важную для обучения администраторов кластера Apache Kafka тему про удаление брокеров. Что происходит, когда администратор удаляет брокер Kafka из кластера, какие сложности при этом могут возникнуть и как…

CI/CD для дата-инженера: разработка DAG и развертывание в среде Airflow с GitLab

Автор Категория ,
CI/CD для дата-инженера: разработка DAG и развертывание в среде Airflow с GitLab

Интеграция Apache Airflow с инструментами CI/CD является одной из лучших практик современной дата-инженерии, о чем мы недавно писали. Читайте далее, зачем нужно управлять кодом DAG с помощью популярных систем управления…

Еще 3 совета Astronomer для лучшей оркестрации данных с Apache AirFlow

Автор Категория ,
Еще 3 совета Astronomer для лучшей оркестрации данных с Apache AirFlow

В продолжение недавней статьи для дата-инженеров по эффективной работе с Apache AirFlow, сегодня разберем еще несколько рекомендаций от компании Astronomer, которая продвигает и коммерциализирует этот ETL-оркестратор. Чем полезна микрооркестрация с…

Как повысить эффективность кластера Apache HBase: YCSB-тестирование региональных серверов

Автор Категория ,
Как повысить эффективность кластера Apache HBase: YCSB-тестирование региональных серверов

Сегодня затронем тему администрирования кластеров Apache HBase и рассмотрим, приносит ли реальную пользу совместное размещение нескольких региональных серверов (RegionServer) на одном узле кластера. Сравнительный анализ по тестам YCSB-бенчмарка. Регионы и…

Отказы в Kafka-приложениях и FMECA-анализ: определить и устранить сбои

Автор Категория ,
Отказы в Kafka-приложениях и FMECA-анализ: определить и устранить сбои

Хотя Apache Kafka является надежной платформой потоковой обработки событий, что особенно важно для распределенных приложений, отказы случаются и в ней. Сегодня разберем важную для обучения разработчиков и дата-инженеров тему про…

Настройка кластера Apache Spark и Hive на Hadoop

Автор Категория , ,
Настройка кластера Apache Spark и Hive на Hadoop

Как настроить Apache Spark 3.0.1 и Hive 3.1.2 на Hadoop 3.3.0: тонкости установки и конфигурирования для обучения администраторов кластера и инженеров с примерами команд и кода распределенных приложений. Запуск Spark-приложения…

ТОП-3 практики оркестрации данных с Apache AirFlow: советы Astronomer

Автор Категория ,
ТОП-3 практики оркестрации данных с Apache AirFlow: советы Astronomer

Сегодня рассмотрим несколько рекомендаций по построению масштабной и устойчивой экосистемы интеграции корпоративных данных на базе Apache AirFlow от компании Astronomer, которая активно способствует продвижению и коммерциализации этого популярного инструмента дата-инженерии.…

Автосоздание CLI в Apache Airflow с Python Fire вместо Python-оператора

Автор Категория ,
Автосоздание CLI в Apache Airflow с Python Fire вместо Python-оператора

Почему следует избегать PythonOperator в конвейере обработки пакетных данных на Apache Airflow и что использовать вместо этого оператора для описания задач DAG. Когда лаконичный CLI лучше наглядного GUI, где и как…

Istio для Apache Airflow в Kubernetes: проблемы и решения

Автор Категория ,
Istio для Apache Airflow в Kubernetes: проблемы и решения

Запуск Apache Airflow с Kubernetes сегодня стал стандартом де-факто. Однако, при практическом развертывании Airflow с помощью исполнителя Kubernetes и оператора пода в кластере этой платформы оркестрации контейнерных приложений возникает множество препятствий…