Как устроен конвейер аналитики больших данных на Apache Kafka и Druid в Netflix

курсы по Kafka, обучение Kafka, Big Data, Большие данные, предиктивная аналитика, цифровая экономика, Druid, Kafka, обработка данных, архитектура, SQL

В этой статье разберем, что такое прикладная аналитика больших данных на примере практического использования Apache Kafka и Druid в Netflix для обработки и визуализации метрик пользовательского поведения. Читайте далее, зачем самой популярной стриминговой компании отслеживать показатели клиентских устройств и как это реализуется с помощью Apache Druid, Kafka и других технологий Big Data. Big Data Pipeline на Apache Kafka и Druid Напомним, бизнес Netflix, по сути, представляет собой интернет-кинотеатр, где можно в режиме онлайн смотреть видеозаписи: фильмы, передачи и пр. Чтобы понимать, как обновления и другие нововведения воспринимаются пользователями, Netflix отслеживает метрики о клиентских устройствах, классифицируя последние по типу: Smart TV, iPad, Android-телефон и т.д. Анализируя логи с этих устройств в реальном времени в качестве источника событий, аналитики Big Data могут Далее …

Зачем вам UNION вместо JOIN в Apache Druid и семплирование больших данных в Spark Streaming: пример потоковой аналитики Big Data

курсы дата инженеров, обучение инженеров Big Data, обработка данных, большие данные, Big Data, Kafka, архитектура, Spark, Druid, предиктивная аналитика, SQL

Недавно мы рассказывали про систему онлайн-аналитики Big Data на базе Apache Kafka, Spark Streaming и Druid для площадки рекламных ссылок Outbrain, а затем на этом же кейсе рассматривали, зачем нужен Graceful shutdown в потоковой обработке больших данных. Сегодня в рамках этого примера разберем, как снизить нагрузку при потоковой передаче множества данных с помощью семплирования RDD в Spark Streaming, а также когда и почему стоит выбрать Union, а не Join-оператор в SQL-запросах Apache Druid. Постановка задачи или что не так с JOIN в Apache Druid Для оценки эффективности своих ретаргетинговых кампаний, биржа рекламных ссылок Outbrain построила собственную систему аналитики больших данных на основе Apache Kafka, Spark Streaming и Druid. Принцип ее работы можно описать следующим образом [1]: «cырые» данные о пользовательском Далее …

Что такое Graceful shutdown в Spark Streaming: основы Big Data для начинающих

курсы по Apache Spark Apache Spark обучение, курсы по Kafka, обучение Kafka, обработка данных, большие данные, Big Data, Kafka, архитектура, Spark, Druid, предиктивная аналитика, потоковая обработка больших данных кейсы, Graceful shutdown Apache Spark Streaming

Продолжая разбирать, как работает аналитика больших данных на практических примерах, сегодня мы рассмотрим, что такое Graceful shutdown в Apache Spark Streaming. Читайте далее, как устроен этот механизм «плавного» завершения Спарк-заданий и чем он полезен при потоковой обработке больших данных в рамках непрерывных конвейеров на базе Apache Kafka и других технологий Big Data. Зачем нужно «плавное» завершение Spark-заданий при потоковой обработке данных Как мы разбирали во вчерашнем примере, при построении конвейера потоковой обработки больших данных на основе Apache Kafka и Spark Streaming предполагается, что Spark-задания выполняются непрерывно. Приложение Spark Streaming постоянно считывает события из входного топика Kafka, обрабатывает их и записывает результаты в выходной топик. Но на практике в кластере Спарк может возникнуть сбой. А, поскольку, Apache Spark – это отказоустойчивая Далее …

Веб-реклама, ретаргетинг и проблемы потоковой аналитики больших данных с Apache Kafka, Spark Streaming и Druid: кейс платформы Outbrain

курсы по Apache Spark Apache Spark обучение, курсы по Kafka, обучение Kafka, обработка данных, большие данные, Big Data, Kafka, архитектура, Spark, Druid, предиктивная аналитика, потоковая обработка больших данных кейсы

Современная аналитика больших данных ориентируется на обработку Big Data в реальном времени. Такие вычисления «на лету» позволяют в режиме онлайн узнавать о критически важных производственных показателях и оперативно понимать клиентские потребности. Это существенно ускоряет и автоматизирует цикл принятия управленческих решений в соответствии с требованиями сегодняшнего бизнеса. Обычно для реализации архитектуры потоковой обработки данных используются распределенные масштабируемые и надежные технологии Big Data, такие как Apache Kafka и Spark Streaming. Читайте далее, как на их основе нью-йоркская платформа веб-рекламы Outbrain разработала собственную систему онлайн-аналитики и при чем здесь Graceful shutdown. На чем стоит ретаргетинг: потоковая аналитика больших данных в онлайн-рекламе Чтобы показать важность аналитики событий в реальном времени для компании Outbrain, прежде всего поясним суть ее бизнеса. По сути, Outbrain является биржей Далее …

Все грани Apache NiFi для построения ETL-pipeline’ов и обработки потоковых данных с Kafka и Spark

Spark, обработка данных, большие данные, Big Data, NiFi, ETL, Kafka, машинное обучение, Machine Learning, курсы по Apache NiFi, обучение инженеров больших данных, Big Data Engineer обучение

Продолжая разговор про инженерию больших данных, сегодня рассмотрим, как построить ETL-pipeline на открытых технологиях Big Data. Читайте далее про получение, агрегацию, фильтрацию, маршрутизацию и обработку потоковых данных с помощью Apache NiFi, Kafka и Spark, преобразование JSON, а также обогащение и сохранение данных в Hive, HDFS и Amazon S3. Пример потокового конвейера обработки данных на технологиях Big Data Разберем кейс, когда необходимо использовать несколько источников, включая каналы REST, социальные каналы, сообщения, изображения, документы и реляционные данные. Типовой конвейер обработки данных (data pipeline) в этом случае будет выглядеть следующим образом [1]: Apache NiFi принимает потоковые данные, фильтрует их, обрабатывает и отправляет в соответствующие топики Apache Kafka с учетом схем для записи форматов сообщений. Дополнительная обработка событий для последующей аналитики больших данных и Далее …