Как быстро и безопасно удалять брокеры из кластера Kafka: решение от Confluent

Автор Категория ,
Как быстро и безопасно удалять брокеры из кластера Kafka: решение от Confluent

Сегодня рассмотрим важную для обучения администраторов кластера Apache Kafka тему про удаление брокеров. Что происходит, когда администратор удаляет брокер Kafka из кластера, какие сложности при этом могут возникнуть и как…

Оконные функции PySpark в Google Colab: пара примеров

Автор Категория ,
Оконные функции PySpark в Google Colab: пара примеров

Специально для обучения начинающих аналитиков данных и дата-инженеров сегодня рассмотрим примеры выполнения простых SQL-запросов и оконных функций в Apache Spark на Google Colab. Как быстро проанализировать датафрейм из CSV-файлов с…

Зачем вам Data Importer для Neo4j: краткий обзор апрельских обновлений

Автор Категория ,
Зачем вам Data Importer для Neo4j: краткий обзор апрельских обновлений

Сегодня в рамках продвижения нашего курса по графовой аналитике больших данных в бизнес-приложениях, рассмотрим новый инструмент популярной графовой СУБД Neo4j  для загрузки данных – Data Importer. Что это такое, как…

Анализ данных Youtube в реальном времени с Apache NiFi, Kafka и Spark Streaming

Автор Категория , , ,
Анализ данных Youtube в реальном времени с Apache NiFi, Kafka и Spark Streaming

В этой статье для дата-инженеров рассмотрим пример конвейера анализа потокового видео с Youtube-каналов на Kafka, Spark Streaming и Elasticsearch c Kibana, связанных через процессоры Apache NiFi. Постановка задачи: ETL-конвейер анализа…

Управление перемешиванием данных во время выполнения Flink-приложений

Автор Категория ,
Управление перемешиванием данных во время выполнения Flink-приложений

Мы уже писали про динамическое изменение правил фильтрации без перезапуска Flink-приложений. В продолжение этой темы в рамках продвижения нашего нового курса по потоковой обработке данных  помощью Apache Flink, сегодня рассмотрим,…

5 способов организации ETL-процессов с Greenplum: команды и утилиты

Автор Категория ,
5 способов организации ETL-процессов с Greenplum: команды и утилиты

Мы уже рассматривали, как загрузить в Greenplum большие объемы данных. В продолжение этой важной для обучения дата-инженеров темы, сегодня разберем еще несколько инструментов, решающих задачу организации ETL-процессов с этой MPP-СУБД.…

Apache Kafka в Walmart для масштабируемого пополнения запасов в реальном времени

Автор Категория ,
Apache Kafka в Walmart для масштабируемого пополнения запасов в реальном времени

Проблема своевременного пополнения товарных запасов актуальна для любого ритейлера. Разбираемся, как торговый гигант США Walmart построил свою платформу планирования и пополнения продукции в реальном времени на базе Apache Kafka: ключевые…

Feature Store на Apache HBase с Phoenix, RonDB и Kafka: кейс Dream11

Автор Категория ,
Feature Store на Apache HBase с Phoenix, RonDB и Kafka: кейс Dream11

Современные ML-системы представляют собой сложные комплексные платформы из множества компонентов, одним из которых является хранилище фичей для моделей машинного обучения. Индийская gamedev-компания Dream11 делится своим опытом, как построить такое Feature…

Анализ европейской газотранспортной системы с Neo4j

Автор Категория ,
Анализ европейской газотранспортной системы с Neo4j

В рамках практического обучения аналитиков данных и специалистов по Data Science реальным задачам современных бизнес-приложений, сегодня разберем актуальную и острую для многих стран тему по промышленному использованию природных ресурсов в…

3 режима вывода в Apache Spark Structured Streaming

Автор Категория ,
3 режима вывода в Apache Spark Structured Streaming

Какие бывают режимы вывода в структурированной потоковой передаче Spark, чем они отличаются и как их использовать на практике: разбираемся на практическом примере. Краткий ликбез по output modes в Apache Spark…