Что такое Apache Pulsar: новая Kafka или улучшенный RabbitMQ для потоков Big Data

курсы по Apache Kafka, Kafka Streams для разработчиков, обучение Kafka Streams, обработка данных, большие данные, Big Data, архитектура, Kafka, Apache Pulsar, RabbitMQ

Продвигая наши обновленные курсы по Kafka, сегодня рассмотрим, почему в последнее время эту Big Data платформу потоковой обработки событий стали активно сравнивать с Apache Pulsar. Читайте далее, как устроен этот молодой, но интересный фреймворк потоковой обработки больших данных, чем он отличается от Kafka и RabbitMQ, что между ними общего и каковы его перспективы в мире Big Data. Интеграция и потоковая аналитика больших данных: что такое Apache Pulsar В real-time обработке больших данных и интеграции распределенных систем RabbitMQ считается самым популярным конкурентом Apache Kafka – Big Data платформы потоковой передачи событий. Об этом мы подробно рассказывали здесь. Однако, RabbitMQ – далеко не единственная альтернатива Kafka. С 2019 года все большую известность получает новый проект Apache Software Foundation (ASF) – фреймворк Pulsar. Далее …

За что все его так любят: ТОП-5 достоинств ClickHouse для Big Data

g Data, Большие данные, обработка данных, архитектура, SQL, ClickHouse, DWH, Kafka, Zookeeper, Hive, Hadoop

Сегодня рассмотрим основные преимущества ClickHouse – аналитической СУБД от Яндекса для обработки запросов по структурированным большим данным в реальном времени. Читайте в нашей статье, чем еще хорош Кликхаус, кроме высокой скорости, и почему эту систему так любят аналитики, разработчики и администраторы Big Data. Чем хорош ClickHouse: главные преимущества Напомним, основным сценарием использования ClickHouse считается генерация аналитических запросов по структурированным данным c минимальной задержкой, фактически в режиме в режиме real time. Таким образом, главными преимуществами этой OLAP-СУБД для Big Data являются следующие: скорость; масштабируемость; расширяемость; высокая доступность и отказоустойчивость; простота развертывания и удобство эксплуатации. Далее рассмотрим подробнее, какие именно архитектурные и конструктивные особенности ClickHouse обеспечивают все эти достоинства. Почему так быстро: 5 причин высокой скорости Внедрение ClickHouse на сервисе Яндекс.Метрика отмечает Далее …

ClickHouse + Kafka: 5 примеров совместного использования и особенности интеграционного движка

Big Data, Большие данные, обработка данных, архитектура, SQL, Arenadata, Kafka, ClickHouse, Zookeeper

В этой статье рассмотрим интеграцию ClickHouse с Apache Kafka: когда и зачем она нужна, как связать эти две Big Data системы, каковы ограничения и недостатки существующих способов и каким образом их можно обойти. Также разберем, почему кластер Кликхаус использует Zookeeper и что такое материализованное представление таблицы Кафка. Big Data маркетинг, непрерывный мониторинг и IoT: зачем нужна интеграция ClickHouse с Apache Kafka Напомним, ClickHouse – это колоночная СУБД от отечественной компании «Яндекс» с открытым кодом для быстрой обработки аналитических запросов в режиме реального времени на структурированных больших данных [1]. Изначально разработчики ClickHouse предусмотрели возможность потоковой заливки данных из Apache Kafka. На практике такая задача может возникнуть, например, при маркетинговой аналитике, когда необходимо оперативно оценить успешность рекламного блока с минимальной задержкой. Вычисления Далее …

Как связать Greenplum и Kafka: 2 способа интеграции и коннектор Arenadata DB

Big Data, Большие данные, обработка данных, архитектура, SQL, Greenplum, Arenadata, Kafka, интеграция Гринплам и Кафка

Мы уже рассказывали про интеграцию Tarantool с Apache Kafka на примере Arenadata Grid. Сегодня рассмотрим, как интегрировать Кафка с MPP-СУБД Greenplum и каковы ограничения каждого из существующих способов. Читайте в сегодняшнем материале, что такое GPSS, PXF и при чем тут Docker-контейнер с коннектором Кафка для Arenadata DB. IoT и не только или зачем интегрировать Greenplum с Apache Kafka Прежде всего поясним, почему вообще возникает задача интеграции MPP-СУБД Greenplum с брокером сообщений Apache Kafka. Представьте, что есть множество входящих потоков данных, например, от устройств интернета вещей (Internet of Things, IoT), которые необходимо проанализировать в реальном времени. Или нужна оперативная аналитика биржевых показателей на платформе онлайн-трейдинга, где миллионы клиентов со всего мира торгуют валютой и ценными бумагами в режиме онлайн. Технология массивно-параллельной Далее …

Как работает Apache Zookeeper: 5 проблем самой популярной службы синхронизации для распределенных Big Data систем

Apache Zookeeper, Зукипер, Big Data, Большие данные, архитектура, Hadoop, HBase, Kafka, администрирование

Однажды мы уже рассматривали, зачем Apache Kafka, Hadoop, HBase и другие Big Data системы используют Zookeeper, почему он необходим в распределенных проектах и чем можно заменить его заменить. Сегодня поговорим о том, как работает этот популярный централизованный сервис для поддержки информации о конфигурации, именования, обеспечения синхронизации распределенных приложений и предоставления групповых служб. Как устроен Apache Zookeeper: архитектура и принцип работы Начнем с того, что Apache Zookeeper – это, прежде всего, инструмент Big Data администратора, который следит за синхронизацией и координацией всего кластера распределенных приложений. По сути, Зукипер представляет собой распределенное хранилище ключ-значение (key-value), где пространство ключей образует древовидную иерархию как в файловой системе, а значения могут содержаться в любом узле иерархии (только в листьях) [1]. Кластер Zookeeper поддерживает клиент-серверную архитектуру, Далее …

Как ускорить работу producer’ов Kafka: параметры конфигурации производителей

Big Data, Большие данные, Kafka, архитектура

Вчера мы рассказывали, от чего зависит скорость работы Apache Kafka и как можно повысить. Сегодня рассмотрим подробнее, как именно конфигурация отправителей (производителей, producers) сообщений влияет на общую производительность этой распределенной Big Data системы потоковой агрегации событий. Что такое конфигурация производителей Apache Kafka Напомним, общая производительность Кафка зависит от следующих факторов: параметры аппаратного оборудования улов кластера (hardware) – память, ЦП, жесткие диски; пропускная способности сети; количество производителей и потребителей; конфигурация производителей – совокупность настроек (параметров) producer’ов, которые определяют поведение отправителей сообщений. Таким образом, настройки отправителей сообщений играют далеко не последнюю роль в общей производительности Big Data системы. Вообще официальная документация по Kafka Confluent включает около 60 параметров конфигурации производителей. Из них далеко не все напрямую влияют на скорость работы producer’ов Кафка. Далее …

Зачем Apache Kafka и другие Big Data системы используют Zookeeper и чем его заменить

Big Data, Большие данные, Kafka, Hadoop, HBase

Рассматривая практическое обучение Kafka, сегодня мы поговорим, зачем нужен Zookeeper и можно ли использовать Кафка без этой централизованной службы синхронизации распределенных сервисов. Читайте в нашей статье о роли Zoo в системах обработки больших данных (Big Data) и о том, может ли Apache Kafka эффективно работать без Zookeeper, а также как это реализовать. Что такое Apache Zookeeper и зачем он нужен Kafka, а также другим Big Data системам Apache Zookeeper – это централизованная служба для поддержки информации о конфигурации, именования, обеспечения синхронизации распределенных приложений и предоставления групповых служб. За счет своего API, Зукипер берет на себя координацию распределенных сервисов, позволяя разработчику Big Data сосредоточиться на логике своего приложения. С развитием основных технологий больших данных (Apache Hadoop, HBase, Kafka), Zoo стал стандартом Далее …