Тонкости интеграции Apache Kafka с Pinot для аналитики больших данных в реальном времени

Автор Категория ,
Тонкости интеграции Apache Kafka с Pinot для аналитики больших данных в реальном времени

Продолжая вчерашний разговор про потоковую аналитику больших данных на Apache Kafka и Pinot, сегодня рассмотрим особенности интеграции этих систем. Читайте далее, как входные данные Kafka разделяются, реплицируются и индексируются в…

Микросервисная real-time аналитика больших данных: потоковый OLAP на Apache Kafka, Pinot, Debezium и CDC

Автор Категория , ,
Микросервисная real-time аналитика больших данных: потоковый OLAP на Apache Kafka, Pinot, Debezium и CDC

В этой статье разберем несколько популярных сценариев потоковой аналитики больших данных на Kafka, CDC-платформе Debezium и быстром OLAP-хранилище Apache Pinot. Читайте далее, почему все эти Big Data технологии отлично подходят…

Как устроен конвейер аналитики больших данных на Apache Kafka и Druid в Netflix

Автор Категория , ,
Как устроен конвейер аналитики больших данных на Apache Kafka и Druid в Netflix

В этой статье разберем, что такое прикладная аналитика больших данных на примере практического использования Apache Kafka и Druid в Netflix для обработки и визуализации метрик пользовательского поведения. Читайте далее, зачем…

Зачем вам UNION вместо JOIN в Apache Druid и семплирование больших данных в Spark Streaming: пример потоковой аналитики Big Data

Автор Категория , , ,
Зачем вам UNION вместо JOIN в Apache Druid и семплирование больших данных в Spark Streaming: пример потоковой аналитики Big Data

Недавно мы рассказывали про систему онлайн-аналитики Big Data на базе Apache Kafka, Spark Streaming и Druid для площадки рекламных ссылок Outbrain, а затем на этом же кейсе рассматривали, зачем нужен…

Что такое Graceful shutdown в Spark Streaming: основы Big Data для начинающих

Автор Категория , , ,
Что такое Graceful shutdown в Spark Streaming: основы Big Data для начинающих

Продолжая разбирать, как работает аналитика больших данных на практических примерах, сегодня мы рассмотрим, что такое Graceful shutdown в Apache Spark Streaming. Читайте далее, как устроен этот механизм «плавного» завершения Спарк-заданий…

Веб-реклама, ретаргетинг и проблемы потоковой аналитики больших данных с Apache Kafka, Spark Streaming и Druid: кейс платформы Outbrain

Автор Категория , , ,
Веб-реклама, ретаргетинг и проблемы потоковой аналитики больших данных с Apache Kafka, Spark Streaming и Druid: кейс платформы Outbrain

Современная аналитика больших данных ориентируется на обработку Big Data в реальном времени. Такие вычисления «на лету» позволяют в режиме онлайн узнавать о критически важных производственных показателях и оперативно понимать клиентские…

Все грани Apache NiFi для построения ETL-pipeline’ов и обработки потоковых данных с Kafka и Spark

Автор Категория , , , ,
Все грани Apache NiFi для построения ETL-pipeline’ов и обработки потоковых данных с Kafka и Spark

Продолжая разговор про инженерию больших данных, сегодня рассмотрим, как построить ETL-pipeline на открытых технологиях Big Data. Читайте далее про получение, агрегацию, фильтрацию, маршрутизацию и обработку потоковых данных с помощью Apache…