Продолжая вчерашний разговор про потоковую аналитику больших данных на Apache Kafka и Pinot, сегодня рассмотрим особенности интеграции этих систем. Читайте далее, как входные данные Kafka разделяются, реплицируются и индексируются в…
Метка: Druid
Микросервисная real-time аналитика больших данных: потоковый OLAP на Apache Kafka, Pinot, Debezium и CDC
Автор Анна ВичуговаКатегория Kafka, Use Cases, Статьи
В этой статье разберем несколько популярных сценариев потоковой аналитики больших данных на Kafka, CDC-платформе Debezium и быстром OLAP-хранилище Apache Pinot. Читайте далее, почему все эти Big Data технологии отлично подходят…
Как устроен конвейер аналитики больших данных на Apache Kafka и Druid в Netflix
Автор Анна ВичуговаКатегория Kafka, Use Cases, Статьи
В этой статье разберем, что такое прикладная аналитика больших данных на примере практического использования Apache Kafka и Druid в Netflix для обработки и визуализации метрик пользовательского поведения. Читайте далее, зачем…
Зачем вам UNION вместо JOIN в Apache Druid и семплирование больших данных в Spark Streaming: пример потоковой аналитики Big Data
Автор Анна ВичуговаКатегория Kafka, Spark, Use Cases, Статьи
Недавно мы рассказывали про систему онлайн-аналитики Big Data на базе Apache Kafka, Spark Streaming и Druid для площадки рекламных ссылок Outbrain, а затем на этом же кейсе рассматривали, зачем нужен…
Что такое Graceful shutdown в Spark Streaming: основы Big Data для начинающих
Автор Анна ВичуговаКатегория Kafka, Spark, Use Cases, Статьи
Продолжая разбирать, как работает аналитика больших данных на практических примерах, сегодня мы рассмотрим, что такое Graceful shutdown в Apache Spark Streaming. Читайте далее, как устроен этот механизм «плавного» завершения Спарк-заданий…
Веб-реклама, ретаргетинг и проблемы потоковой аналитики больших данных с Apache Kafka, Spark Streaming и Druid: кейс платформы Outbrain
Автор Анна ВичуговаКатегория Kafka, Spark, Use Cases, Статьи
Современная аналитика больших данных ориентируется на обработку Big Data в реальном времени. Такие вычисления «на лету» позволяют в режиме онлайн узнавать о критически важных производственных показателях и оперативно понимать клиентские…
Все грани Apache NiFi для построения ETL-pipeline’ов и обработки потоковых данных с Kafka и Spark
Автор Анна ВичуговаКатегория Kafka, Machine Learning, Spark, Use Cases, Статьи
Продолжая разговор про инженерию больших данных, сегодня рассмотрим, как построить ETL-pipeline на открытых технологиях Big Data. Читайте далее про получение, агрегацию, фильтрацию, маршрутизацию и обработку потоковых данных с помощью Apache…