В продолжение недавней статьи для дата-инженеров по эффективной работе с Apache AirFlow, сегодня разберем еще несколько рекомендаций от компании Astronomer, которая продвигает и коммерциализирует этот ETL-оркестратор. Чем полезна микрооркестрация с…
Метка: контейнеризация
ТОП-3 практики оркестрации данных с Apache AirFlow: советы Astronomer
Автор Анна ВичуговаКатегория AirFlow, СтатьиСегодня рассмотрим несколько рекомендаций по построению масштабной и устойчивой экосистемы интеграции корпоративных данных на базе Apache AirFlow от компании Astronomer, которая активно способствует продвижению и коммерциализации этого популярного инструмента дата-инженерии.…
Автосоздание CLI в Apache Airflow с Python Fire вместо Python-оператора
Автор Анна ВичуговаКатегория AirFlow, СтатьиПочему следует избегать PythonOperator в конвейере обработки пакетных данных на Apache Airflow и что использовать вместо этого оператора для описания задач DAG. Когда лаконичный CLI лучше наглядного GUI, где и как…
Istio для Apache Airflow в Kubernetes: проблемы и решения
Автор Анна ВичуговаКатегория AirFlow, СтатьиЗапуск Apache Airflow с Kubernetes сегодня стал стандартом де-факто. Однако, при практическом развертывании Airflow с помощью исполнителя Kubernetes и оператора пода в кластере этой платформы оркестрации контейнерных приложений возникает множество препятствий…
Краткий обзор Apache Airflow Helm chart 1.5.0
Автор Анна ВичуговаКатегория AirFlow, Статьи11 марта 2022 года вышла новая версия Apache Airflow Helm Сhart. Рассмотрим главные новинки релиза 1.5.0 и их практическую ценность с точки зрения прикладной дата-инженерии. А также разберем ключевые понятия этого…
Синхронные и асинхронные продюсеры: Graceful shutdown для Apache Kafka
Автор Анна ВичуговаКатегория Kafka, СтатьиМы уже рассказывали, что такое Graceful shutdown на примере Spark Streaming. Сегодня разберем реализацию этой идеи плавного завершения задач в потоковой обработке данных применяется в компании Carwow при работе с…
Как создать микросервисный ML-конвейер в реальном времени на Apache Kafka и Spark
Автор Анна ВичуговаКатегория Kafka, Spark, Use Cases, СтатьиЧтобы дополнить наши курсы по Kafka и Spark интересными примерами, сегодня рассмотрим практический кейс разработки микросервисного конвейера машинного обучения на этих фреймворках. Читайте далее, зачем выносить ML-компонент в отдельное Python-приложение…
5 проблем Apache NiFi на Kubernetes и способы их решения
Автор Анна ВичуговаКатегория Cloudera, NiFi, СтатьиВ рамках нового курса Apache NiFi для инженеров данных, сегодня разберем особенности развертывания этого маршрутизатора потоков Big Data на платформе управления контейнерными приложениями Kubernetes. Советы дата-инженерам, как сократить расходы на…
3 оператора Apache Airflow для контейнерных конвейеров данных
Автор Анна ВичуговаКатегория AirFlow, СтатьиСовмещение Airflow с Kubernetes уже становится стандартом де-факто для дата-инженеров. Недавно мы рассказывали про 3 популярные среды развертывания и сопровождения этого ETL-фреймворка в Kubernetes. Продолжая эту тему, сегодня рассмотрим, какие…
Как сэкономить на AWS со Spark и Kubernetes: спотовые узлы и готовые платформы
Автор Анна ВичуговаКатегория Spark, Use Cases, СтатьиПродолжая разговор про оптимизацию приложений Apache Spark в Kubernetes, сегодня разберем, как сократить расходы на облачный кластер с помощью спотовых узлов. А в качестве практического примера рассмотрим кейс компании Weather2020,…