16 июня 2022 года вышла новая версия Apache Spark – 3.3.0. Разбираем главные фичи этого минорного релиза, особенно важные для дата-инженера и разработчика распределенных приложений: от расширения поддержки ANSI SQL…
Метка: Python
Анализ связности направленного графа с библиотекой Networkx в Google Colab
Автор Анна ВичуговаКатегория Новости, СтатьиВ рамках продвижения нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим, что такое связность в графе, зачем вычислять компоненты связности и как это сделать для ориентированных…
Атомарность и идемпотентность в Apache AirFlow
Автор Анна ВичуговаКатегория AirFlow, СтатьиВ этой статье для обучения дата-инженеров рассмотрим практическое применение 2-х важных принципов обработки данных: атомарность и идемпотентность задач в Apache Airflow. Читайте далее, как применить их к своим ETL-конвейерам, чтобы…
Greenplum + Python: обзор расширения
Автор Анна ВичуговаКатегория Greenplum, СтатьиКак писать UDF-функции Greenplum на Python: краткий обзор расширения PL/Python для дата-инженера и разработчика распределенных приложений. Как его установить, настроить и использовать: сопоставления типов данных, SQL-запросы, модули и функции. Поддержка…
Вместо Git и Python: MLOps для разработки и развертывания ML-систем
Автор Анна ВичуговаКатегория Machine Learning, СтатьиЧто не так с традиционными методами и инструментами разработки ПО для систем машинного обучения и как MLOps решает эти инженерные проблемы ML. Почему не стоит размещать файлы моделей Machine Learnig…
Новинки Apache Flink 1.15: краткий обзор
Автор Анна ВичуговаКатегория Flink, СтатьиВесна богата на новые релизы: в начале мая 2022 года вышел Apache Flink 1.15. Рассказываем, что нового в свежем выпуске: краткий обзор самых полезных фич для разработчика распределенных приложений, а…
Apache Airflow 2.3: что нового?
Автор Анна ВичуговаКатегория AirFlow, Статьи30 апреля 2022 года вышел новый релиз Apache Airflow, который содержит более 700 коммитов с предыдущей версии 2.2.0 и включает 50 новых функций, 99 улучшений, 85 исправлений ошибок и несколько…
Оконные функции PySpark в Google Colab: пара примеров
Автор Анна ВичуговаКатегория Spark, СтатьиСпециально для обучения начинающих аналитиков данных и дата-инженеров сегодня рассмотрим примеры выполнения простых SQL-запросов и оконных функций в Apache Spark на Google Colab. Как быстро проанализировать датафрейм из CSV-файлов с…
CI/CD для дата-инженера: разработка DAG и развертывание в среде Airflow с GitLab
Автор Анна ВичуговаКатегория AirFlow, СтатьиИнтеграция Apache Airflow с инструментами CI/CD является одной из лучших практик современной дата-инженерии, о чем мы недавно писали. Читайте далее, зачем нужно управлять кодом DAG с помощью популярных систем управления…
Еще 3 совета Astronomer для лучшей оркестрации данных с Apache AirFlow
Автор Анна ВичуговаКатегория AirFlow, СтатьиВ продолжение недавней статьи для дата-инженеров по эффективной работе с Apache AirFlow, сегодня разберем еще несколько рекомендаций от компании Astronomer, которая продвигает и коммерциализирует этот ETL-оркестратор. Чем полезна микрооркестрация с…