Блог

5 главных мифов о превосходстве Apache Pulsar над Kafka и их опровержения

курсы по Kafka, обучение Kafka, курсы администрирования Kafka, Apache Kafka для администраторов, обработка данных, большие данные, Big Data, архитектура, Kafka, Pulsar

Оставив за рамками этой статьи бенчмаркиновые войны по оценке производительности Apache Pulsar в сравнении с Kafka и RabbitMQ, сегодня разберем 5 популярных мифов о превосходстве молодого Пульсар над зрелой Кафка – платформой потоковой обработки событий с точки зрения администрирования и эксплуатации. Читайте далее, правда ли управлять кластером Pulsar проще, чем Apache Kafka, и что из них надежнее для построения распределенных масштабируемых систем аналитики больших данных.   Миф №1: Pulsar проще в управлении, чем Kafka Недавно мы упоминали, что BookKeeper позволяет Pulsar разделять вычисления и хранение данных, в отличие от Kafka. В Apache Pulsar брокер выполняет вычисления, а букмекер управляет stateful-хранилищем, обеспечивая более гибкую масштабируемость, меньшую операционную нагрузку, скорость и стабильность высокопроизводительной обработки Big Data. Однако, не все так просто. Архитектура Pulsar включает Далее …

Кто быстрее: критика бенчмаркинга производительности Apache Kafka versus Pulsar

курсы по Kafka, обучение Kafka, курсы администрирования Kafka, Apache Kafka для администраторов, обработка данных, большие данные, Big Data, архитектура, Kafka, Pulsar, RabbitMQ

Продолжая разбирать сходства и различия Apache Pulsar с Kafka и RabbitMQ, сегодня попытаемся выяснить, какой Big Data фреймворк все-таки лучше: погрузимся в особенности бенчмаркинговых исследований, сравнивающих эти платформы. Читайте далее, почему не стоит безоговорочно доверять локальным бенчмаркинг-тестам оценки производительности и какие факторы действительно нужно учитывать при выборе фреймворка для разработки надежной масштабируемой распределенной системы потоковой аналитики больших данных.   Яблоки или апельсины: бенчмаркинговый тест Confluent Вчера мы упоминали, что из-за разницы архитектур и моделей работы с сообщениями прямое сравнение Apache Pulsar с Kafka и RabbitMQ напоминает спор о яблоках и апельсинах. Тем не менее, чтобы доказать превосходство одной системы над другими, вендоры и энтузиасты продолжают выпускать различные бенчмаркинговые тесты. Например, компания Confluent, разработчик множества коммерческих решений вокруг Apache Kafka, в Далее …

Почему Apache Pulsar — это не Kafka с RabbitMQ в одном флаконе

курсы по Kafka, Apache Kafka обучение, Kafka Streams, обработка данных, большие данные, Big Data, архитектура, Kafka, Pulsar, Pulsar vs Kafka vs RabbitMQ

Недавно мы разбирали, что такое Apache Pulsar: архитектуру, принципы работы, сходства и различия с Kafka и RabbitMQ. В продолжение этого разговора, сегодня рассмотрим основные мифы и их опровержения в горячем споре о технологиях Big Data. Читайте далее про холивар Apache Kafka vs Pulsar vs RabbitMQ: что лучше выбрать для построения надежной системы потоковой аналитики больших данных и почему. 3 причины не сравнивать Apache Pulsar с Kafka и RabbitMQ В real-time обработке больших данных и интеграции распределенных систем RabbitMQ считается самым популярным конкурентом Apache Kafka – Big Data платформы потоковой передачи событий. Об этом мы подробно рассказывали здесь. Однако, RabbitMQ – далеко не единственная альтернатива Kafka. С 2019 года все большую известность получает новый проект Apache Software Foundation (ASF) – фреймворк Далее …

Что такое Apache Pulsar: новая Kafka или улучшенный RabbitMQ для потоков Big Data

курсы по Apache Kafka, Kafka Streams для разработчиков, обучение Kafka Streams, обработка данных, большие данные, Big Data, архитектура, Kafka, Apache Pulsar, RabbitMQ

Продвигая наши обновленные курсы по Kafka, сегодня рассмотрим, почему в последнее время эту Big Data платформу потоковой обработки событий стали активно сравнивать с Apache Pulsar. Читайте далее, как устроен этот молодой, но интересный фреймворк потоковой обработки больших данных, чем он отличается от Kafka и RabbitMQ, что между ними общего и каковы его перспективы в мире Big Data. Интеграция и потоковая аналитика больших данных: что такое Apache Pulsar В real-time обработке больших данных и интеграции распределенных систем RabbitMQ считается самым популярным конкурентом Apache Kafka – Big Data платформы потоковой передачи событий. Об этом мы подробно рассказывали здесь. Однако, RabbitMQ – далеко не единственная альтернатива Kafka. С 2019 года все большую известность получает новый проект Apache Software Foundation (ASF) – фреймворк Pulsar. Далее …

Пробуем приложения Apache Kafka Streams в Kubernetes: probe-механизм и проблемы stateful

курсы по Apache Kafka, Kafka Streams для разработчиков, обучение Kafka Streams, обработка данных, большие данные, Big Data, архитектура, Kafka, Kubernetes, DevOps

Вчера мы говорили про сложности развертывания множества stateful-приложений Apache Kafka Streams в кластере Kubernetes и роль контроллера StatefulSet, который поддерживает состояние реплицированных задач за пределами жизненного цикла отдельных подов. В продолжение этой темы, сегодня рассмотрим механизм проб, которые позволяют определить состояние распределенного приложения, развернутого на платформе контейнерной виртуализации. В качестве примера для проверок живучести, готовности и запуска будем ориентироваться на stateful-приложения Kafka Streams. Зачем нужен probe-механизм в Kubernetes: проблемы микросервисной архитектуры и зависания распределенных приложений При всех достоинствах микросервисной архитектуры, связанных, в основном с ускорением разработки за счет разделения продукта на отдельные модули (микросервисы) в лучших традициях Agile, ей свойственны некоторые специфические проблемы. В частности, автоматическое обнаружение неисправных приложений, перенаправление запросов в другие доступные модули распределенных систем и восстановление поврежденных Далее …

Как ваше состояние: запуск stateful-приложений Apache Kafka Streams в Kubernetes

курсы по Apache Kafka, Kafka Streams для разработчиков, обучение Kafka Streams, обработка данных, большие данные, Big Data, архитектура, Kafka, Kubernetes, DevOps

Сегодня рассмотрим особенности запуска приложений Apache Kafka Streams для потоковой обработки больших данных с отслеживанием состояния в кластере Kubernetes. Читайте далее, в чем проблема управления stateful-приложениями Kafka Streams в Kubernetes и как ее решает контроллер StatefulSet. Что обеспечивает хранение состояний в Apache Kafka Streams Напомним, Kafka Streams – это легковесная клиентская библиотека, которую можно встроить в любое приложение Java или микросервис, где входные и выходные данные хранятся в кластерах Kafka. Он не имеет внешних зависимостей от других систем, кроме Apache Kafka, обеспечивая горизонтальное масштабирование потоковой передачи данных при сохранении строгих гарантий обработки сообщений в порядке их появления. Kafka Streams поддерживает отказоустойчивое локальное состояние, обрабатывая по одной записи за раз практически в режиме реального времени. Благодаря наличию хранилищ состояний и интерактивных Далее …

Что такое Big Data Reconciliation: согласование больших данных c Apache Spark

обучение инженеров данных, курсы дата-инженеров, обучение Spark, курсы Apache Spark, Big Data, Большие данные, обработка данных, архитектура, Spark, Data Lake, облака, SQL, PySpark, AWS Spark

Мы уже рассказывали, почему качество данных является важнейшим аспектом разработки и эксплуатации Big Data систем. Приемлемое для эффективного использования качество массивов информации достигается не только с помощью процессов подготовки датасета к машинному обучению и профилирования данных, но и за счет их согласования. Читайте далее, что такое Data reconciliation, зачем это нужно для бизнеса и как оно реализуется в Apache Spark и AWS. Что такое согласование данных и при чем здесь Big Data Как правило, реализация комплексной Big Data системы, в т.ч. на базе облачных сервисов, например, кластер Hadoop в Google DataProc или аналитика больших данных на веб-сервисах Amazon, начинается c репликации данных из исходных реляционных СУБД в единый репозиторий  — озеро данных (Data Lake). Однако, прежде чем приступить к анализу Далее …

CDC-репликация Big Data в реальном времени с Apache Kafka и Debezium в Confluent Cloud

обработка данных, большие данные, Big Data, архитектура, Kafka, SQL

В этой статье поговорим про интеграцию данных с помощью CDC-подхода и репликацию SQL-таблиц из корпоративной СУБД в несколько разных удаленных хранилищ в реальном времени с применением Apache Kafka и Debezium, развернутых в Kafka Connect и Confluent Cloud. Постановка задачи: CDC с Big Data в реальном времени Рассмотрим кейс, который часто встречается в реальной жизни: головному офису предприятия с распределенной структурой требуется оперативно передать данные из своей корпоративной СУБД в удаленные филиалы. В разбираемом примере франчайзеру нужно реплицировать несколько таблиц из своего хранилища данных в системы разных франчайзи в реальном времени. При этом такая односторонняя интеграция должна обрабатывать репликацию большого количества обновлений, внесенных в таблицы исходной СУБД, с возможностью масштабирования по мере роста сети франчайзи, т.е. увеличения числа целевых баз-приемников данных Далее …

А вы любите Kafka? Открытый тест из 10 вопросов на знание популярной Big Data платформы

обучение Apache Kafka, курсы Apache Kafka, тест по Apache Kafka, бесплатный открытый тест по Apache Kafka, вопросы по Apache Kafka, обучение большим данным, интерактивный тест по Big data Для начинающих, основы Apache Kafka вопросы для проверки знаний

Чтобы сделать ваше самостоятельное обучение Apache Kafka и прочим технологиям Big Data по статьям нашего блога еще более интересным, сегодня мы предлагаем вам открытый интерактивный тест по этой платформе потоковой обработки событий. Ответьте на 10 простых вопросов и узнайте, насколько хорошо вы знакомы с особенностями администрирования и эксплуатации этого популярного брокера сообщений и средства построения event-streaming решений для интеграции информационных систем и аналитики больших данных. Проверь себя: практические основы Big Data В рамках разговора про Apache Kafka для начинающих и основы больших данных, сегодня вам предлагается интерактивный тест из 10 вопросов на знание основ и простых задач, которые часто встречаются на практике при администрировании кластеров и разработке Kafka-приложений. Ответы на многие из этих вопросов мы разбирали в нашем блоге. Подробно Далее …

Конкурс для айтишников от Rusbase и ВТБ

Конкурс для айтишников от Rusbase и ВТБ

IT-индустрия сделала многое во время пандемии, чтобы скрасить жизнь тех, кто оказался на самоизоляции. Все эти месяцы мы работали из дома, устраивали конфколлы, смотрели сериалы и заказывали доставку продуктов.  Теперь настало время поблагодарить всех тех, кто помог нам пережить пандемию. Rusbase и ВТБ хотят узнать у айтишников, что им нужно для комфортной жизни в новом 2021 году с помощью конкурса. В этом конкурсе самым креативным подарят новый iPhone 12, Apple Watch 6 или AirPods 2, а также участники смогут получить фирменные худи.   Что нужно сделать для участия:  Надо составить список из пяти предметов, без которых не сможете прожить в новом году, и оформить его в виде коллажа в любом графическом редакторе (при желании можно использовать уже готовый шаблон).  После этого Далее …