Весна богата на новые релизы: в начале мая 2022 года вышел Apache Flink 1.15. Рассказываем, что нового в свежем выпуске: краткий обзор самых полезных фич для разработчика распределенных приложений, а…
Рубрика: Новости
Новости мира больших данных: свежие релизы Apache Hadoop, Spark, Kafka и прочих технологий Big Data, объявления о событиях и акциях
Apache Airflow 2.3: что нового?
Автор Анна ВичуговаКатегория AirFlow, Статьи30 апреля 2022 года вышел новый релиз Apache Airflow, который содержит более 700 коммитов с предыдущей версии 2.2.0 и включает 50 новых функций, 99 улучшений, 85 исправлений ошибок и несколько…
Как быстро и безопасно удалять брокеры из кластера Kafka: решение от Confluent
Автор Анна ВичуговаКатегория Kafka, СтатьиСегодня рассмотрим важную для обучения администраторов кластера Apache Kafka тему про удаление брокеров. Что происходит, когда администратор удаляет брокер Kafka из кластера, какие сложности при этом могут возникнуть и как…
ТОП-5 проблем с данными в ML-системах и MLOps для их устранения
Автор Анна ВичуговаКатегория Machine Learning, СтатьиЧто не так с датасетами в системах машинного обучения, с какими трудностями сталкиваются аналитики, инженеры данных и специалисты по Data Science при внедрении MLOps, почему важна согласованность различных информационных хранилищ,…
Оконные функции PySpark в Google Colab: пара примеров
Автор Анна ВичуговаКатегория Spark, СтатьиСпециально для обучения начинающих аналитиков данных и дата-инженеров сегодня рассмотрим примеры выполнения простых SQL-запросов и оконных функций в Apache Spark на Google Colab. Как быстро проанализировать датафрейм из CSV-файлов с…
Зачем вам Data Importer для Neo4j: краткий обзор апрельских обновлений
Автор Анна ВичуговаКатегория Neo4j, СтатьиСегодня в рамках продвижения нашего курса по графовой аналитике больших данных в бизнес-приложениях, рассмотрим новый инструмент популярной графовой СУБД Neo4j для загрузки данных – Data Importer. Что это такое, как…
Анализ данных Youtube в реальном времени с Apache NiFi, Kafka и Spark Streaming
Автор Анна ВичуговаКатегория Kafka, NiFi, Spark, СтатьиВ этой статье для дата-инженеров рассмотрим пример конвейера анализа потокового видео с Youtube-каналов на Kafka, Spark Streaming и Elasticsearch c Kibana, связанных через процессоры Apache NiFi. Постановка задачи: ETL-конвейер анализа…
Управление перемешиванием данных во время выполнения Flink-приложений
Автор Анна ВичуговаКатегория Flink, СтатьиМы уже писали про динамическое изменение правил фильтрации без перезапуска Flink-приложений. В продолжение этой темы в рамках продвижения нашего нового курса по потоковой обработке данных помощью Apache Flink, сегодня рассмотрим,…
5 способов организации ETL-процессов с Greenplum: команды и утилиты
Автор Анна ВичуговаКатегория Greenplum, СтатьиМы уже рассматривали, как загрузить в Greenplum большие объемы данных. В продолжение этой важной для обучения дата-инженеров темы, сегодня разберем еще несколько инструментов, решающих задачу организации ETL-процессов с этой MPP-СУБД.…
Apache Kafka в Walmart для масштабируемого пополнения запасов в реальном времени
Автор Анна ВичуговаКатегория Kafka, СтатьиПроблема своевременного пополнения товарных запасов актуальна для любого ритейлера. Разбираемся, как торговый гигант США Walmart построил свою платформу планирования и пополнения продукции в реальном времени на базе Apache Kafka: ключевые…