Apache Spark 3.3.0: ТОП-10 новинок июьского релиза 2022

Автор Категория ,
Apache Spark 3.3.0: ТОП-10 новинок июьского релиза 2022

16 июня 2022 года вышла новая версия Apache Spark – 3.3.0. Разбираем главные фичи этого минорного релиза, особенно важные для дата-инженера и разработчика распределенных приложений: от расширения поддержки ANSI SQL…

SIGTERM в Apache Airflow: 4 причины сбоя задач и способы их исправления

Автор Категория ,
SIGTERM в Apache Airflow: 4 причины сбоя задач и способы их исправления

Каждый дата-инженер, который работает с Apache Airflow, сталкивался с сигналом SIGTERM, который отправляется задачам и приводит к сбою DAG. Сегодня рассмотрим, почему случается исключение airflow.exceptions.AirflowException, которое генерирует этот сигнал, и…

Стойки кластера и отказоустойчивость приложений Kafka Streams с релизом 3.2

Автор Категория ,
Стойки кластера и отказоустойчивость приложений Kafka Streams с релизом 3.2

В свежем релизе Apache Kafka 3.2.0, который вышел 17 мая 2022 года, о чем мы писали здесь, есть много интересных улучшений для повышения устойчивости потоковых приложений. Почему важна новая фича…

Реестр Apache NiFi в Kubernetes: как легко развернуть и безопасно использовать

Автор Категория ,
Реестр Apache NiFi в Kubernetes: как легко развернуть и безопасно использовать

Мы уже писали о преимуществах развертывания Apache NiFi на Kubernetes, а также сложностях практической реализации этого процесса. Сегодня поговорим о контейнеризации реестра NiFi с использованием Helm-диаграмм, а также совмещения с…

Вместо Git и Python: MLOps для разработки и развертывания ML-систем

Автор Категория ,
Вместо Git и Python: MLOps для разработки и развертывания ML-систем

Что не так с традиционными методами и инструментами разработки ПО для систем машинного обучения и как MLOps решает эти инженерные проблемы ML. Почему не стоит размещать файлы моделей Machine Learnig…

Как быстро и безопасно удалять брокеры из кластера Kafka: решение от Confluent

Автор Категория ,
Как быстро и безопасно удалять брокеры из кластера Kafka: решение от Confluent

Сегодня рассмотрим важную для обучения администраторов кластера Apache Kafka тему про удаление брокеров. Что происходит, когда администратор удаляет брокер Kafka из кластера, какие сложности при этом могут возникнуть и как…

Отказы в Kafka-приложениях и FMECA-анализ: определить и устранить сбои

Автор Категория ,
Отказы в Kafka-приложениях и FMECA-анализ: определить и устранить сбои

Хотя Apache Kafka является надежной платформой потоковой обработки событий, что особенно важно для распределенных приложений, отказы случаются и в ней. Сегодня разберем важную для обучения разработчиков и дата-инженеров тему про…

ТОП-3 практики оркестрации данных с Apache AirFlow: советы Astronomer

Автор Категория ,
ТОП-3 практики оркестрации данных с Apache AirFlow: советы Astronomer

Сегодня рассмотрим несколько рекомендаций по построению масштабной и устойчивой экосистемы интеграции корпоративных данных на базе Apache AirFlow от компании Astronomer, которая активно способствует продвижению и коммерциализации этого популярного инструмента дата-инженерии.…

MLOps на Python и не только: кейс банка «Открытие»

Автор Категория , ,
MLOps на Python и не только: кейс банка «Открытие»

Чтобы сделать наши курсы для специалистов в области Data Science и ML-инженеров еще более полезными, сегодня рассмотрим, как организовать сквозной CI/CD-конвейер разработки и развертывания системы машинного обучения в соответствии с…

Автосоздание CLI в Apache Airflow с Python Fire вместо Python-оператора

Автор Категория ,
Автосоздание CLI в Apache Airflow с Python Fire вместо Python-оператора

Почему следует избегать PythonOperator в конвейере обработки пакетных данных на Apache Airflow и что использовать вместо этого оператора для описания задач DAG. Когда лаконичный CLI лучше наглядного GUI, где и как…