30 апреля 2022 года вышел новый релиз Apache Airflow, который содержит более 700 коммитов с предыдущей версии 2.2.0 и включает 50 новых функций, 99 улучшений, 85 исправлений ошибок и несколько…
Метка: администрирование
Как быстро и безопасно удалять брокеры из кластера Kafka: решение от Confluent
Автор Анна ВичуговаКатегория Kafka, СтатьиСегодня рассмотрим важную для обучения администраторов кластера Apache Kafka тему про удаление брокеров. Что происходит, когда администратор удаляет брокер Kafka из кластера, какие сложности при этом могут возникнуть и как…
CI/CD для дата-инженера: разработка DAG и развертывание в среде Airflow с GitLab
Автор Анна ВичуговаКатегория AirFlow, СтатьиИнтеграция Apache Airflow с инструментами CI/CD является одной из лучших практик современной дата-инженерии, о чем мы недавно писали. Читайте далее, зачем нужно управлять кодом DAG с помощью популярных систем управления…
Еще 3 совета Astronomer для лучшей оркестрации данных с Apache AirFlow
Автор Анна ВичуговаКатегория AirFlow, СтатьиВ продолжение недавней статьи для дата-инженеров по эффективной работе с Apache AirFlow, сегодня разберем еще несколько рекомендаций от компании Astronomer, которая продвигает и коммерциализирует этот ETL-оркестратор. Чем полезна микрооркестрация с…
Как повысить эффективность кластера Apache HBase: YCSB-тестирование региональных серверов
Автор Анна ВичуговаКатегория HBase, СтатьиСегодня затронем тему администрирования кластеров Apache HBase и рассмотрим, приносит ли реальную пользу совместное размещение нескольких региональных серверов (RegionServer) на одном узле кластера. Сравнительный анализ по тестам YCSB-бенчмарка. Регионы и…
Отказы в Kafka-приложениях и FMECA-анализ: определить и устранить сбои
Автор Анна ВичуговаКатегория Kafka, СтатьиХотя Apache Kafka является надежной платформой потоковой обработки событий, что особенно важно для распределенных приложений, отказы случаются и в ней. Сегодня разберем важную для обучения разработчиков и дата-инженеров тему про…
Настройка кластера Apache Spark и Hive на Hadoop
Автор Анна ВичуговаКатегория Hive, Spark, СтатьиКак настроить Apache Spark 3.0.1 и Hive 3.1.2 на Hadoop 3.3.0: тонкости установки и конфигурирования для обучения администраторов кластера и инженеров с примерами команд и кода распределенных приложений. Запуск Spark-приложения…
ТОП-3 практики оркестрации данных с Apache AirFlow: советы Astronomer
Автор Анна ВичуговаКатегория AirFlow, СтатьиСегодня рассмотрим несколько рекомендаций по построению масштабной и устойчивой экосистемы интеграции корпоративных данных на базе Apache AirFlow от компании Astronomer, которая активно способствует продвижению и коммерциализации этого популярного инструмента дата-инженерии.…
Автосоздание CLI в Apache Airflow с Python Fire вместо Python-оператора
Автор Анна ВичуговаКатегория AirFlow, СтатьиПочему следует избегать PythonOperator в конвейере обработки пакетных данных на Apache Airflow и что использовать вместо этого оператора для описания задач DAG. Когда лаконичный CLI лучше наглядного GUI, где и как…
Istio для Apache Airflow в Kubernetes: проблемы и решения
Автор Анна ВичуговаКатегория AirFlow, СтатьиЗапуск Apache Airflow с Kubernetes сегодня стал стандартом де-факто. Однако, при практическом развертывании Airflow с помощью исполнителя Kubernetes и оператора пода в кластере этой платформы оркестрации контейнерных приложений возникает множество препятствий…