Пробуем приложения Apache Kafka Streams в Kubernetes: probe-механизм и проблемы stateful

курсы по Apache Kafka, Kafka Streams для разработчиков, обучение Kafka Streams, обработка данных, большие данные, Big Data, архитектура, Kafka, Kubernetes, DevOps

Вчера мы говорили про сложности развертывания множества stateful-приложений Apache Kafka Streams в кластере Kubernetes и роль контроллера StatefulSet, который поддерживает состояние реплицированных задач за пределами жизненного цикла отдельных подов. В продолжение этой темы, сегодня рассмотрим механизм проб, которые позволяют определить состояние распределенного приложения, развернутого на платформе контейнерной виртуализации. В качестве примера для проверок живучести, готовности и запуска будем ориентироваться на stateful-приложения Kafka Streams. Зачем нужен probe-механизм в Kubernetes: проблемы микросервисной архитектуры и зависания распределенных приложений При всех достоинствах микросервисной архитектуры, связанных, в основном с ускорением разработки за счет разделения продукта на отдельные модули (микросервисы) в лучших традициях Agile, ей свойственны некоторые специфические проблемы. В частности, автоматическое обнаружение неисправных приложений, перенаправление запросов в другие доступные модули распределенных систем и восстановление поврежденных Далее …

Как ваше состояние: запуск stateful-приложений Apache Kafka Streams в Kubernetes

курсы по Apache Kafka, Kafka Streams для разработчиков, обучение Kafka Streams, обработка данных, большие данные, Big Data, архитектура, Kafka, Kubernetes, DevOps

Сегодня рассмотрим особенности запуска приложений Apache Kafka Streams для потоковой обработки больших данных с отслеживанием состояния в кластере Kubernetes. Читайте далее, в чем проблема управления stateful-приложениями Kafka Streams в Kubernetes и как ее решает контроллер StatefulSet. Что обеспечивает хранение состояний в Apache Kafka Streams Напомним, Kafka Streams – это легковесная клиентская библиотека, которую можно встроить в любое приложение Java или микросервис, где входные и выходные данные хранятся в кластерах Kafka. Он не имеет внешних зависимостей от других систем, кроме Apache Kafka, обеспечивая горизонтальное масштабирование потоковой передачи данных при сохранении строгих гарантий обработки сообщений в порядке их появления. Kafka Streams поддерживает отказоустойчивое локальное состояние, обрабатывая по одной записи за раз практически в режиме реального времени. Благодаря наличию хранилищ состояний и интерактивных Далее …

Что такое Big Data Reconciliation: согласование больших данных c Apache Spark

обучение инженеров данных, курсы дата-инженеров, обучение Spark, курсы Apache Spark, Big Data, Большие данные, обработка данных, архитектура, Spark, Data Lake, облака, SQL, PySpark, AWS Spark

Мы уже рассказывали, почему качество данных является важнейшим аспектом разработки и эксплуатации Big Data систем. Приемлемое для эффективного использования качество массивов информации достигается не только с помощью процессов подготовки датасета к машинному обучению и профилирования данных, но и за счет их согласования. Читайте далее, что такое Data reconciliation, зачем это нужно для бизнеса и как оно реализуется в Apache Spark и AWS. Что такое согласование данных и при чем здесь Big Data Как правило, реализация комплексной Big Data системы, в т.ч. на базе облачных сервисов, например, кластер Hadoop в Google DataProc или аналитика больших данных на веб-сервисах Amazon, начинается c репликации данных из исходных реляционных СУБД в единый репозиторий  — озеро данных (Data Lake). Однако, прежде чем приступить к анализу Далее …

CDC-репликация Big Data в реальном времени с Apache Kafka и Debezium в Confluent Cloud

обработка данных, большие данные, Big Data, архитектура, Kafka, SQL

В этой статье поговорим про интеграцию данных с помощью CDC-подхода и репликацию SQL-таблиц из корпоративной СУБД в несколько разных удаленных хранилищ в реальном времени с применением Apache Kafka и Debezium, развернутых в Kafka Connect и Confluent Cloud. Постановка задачи: CDC с Big Data в реальном времени Рассмотрим кейс, который часто встречается в реальной жизни: головному офису предприятия с распределенной структурой требуется оперативно передать данные из своей корпоративной СУБД в удаленные филиалы. В разбираемом примере франчайзеру нужно реплицировать несколько таблиц из своего хранилища данных в системы разных франчайзи в реальном времени. При этом такая односторонняя интеграция должна обрабатывать репликацию большого количества обновлений, внесенных в таблицы исходной СУБД, с возможностью масштабирования по мере роста сети франчайзи, т.е. увеличения числа целевых баз-приемников данных Далее …

А вы любите Kafka? Открытый тест из 10 вопросов на знание популярной Big Data платформы

обучение Apache Kafka, курсы Apache Kafka, тест по Apache Kafka, бесплатный открытый тест по Apache Kafka, вопросы по Apache Kafka, обучение большим данным, интерактивный тест по Big data Для начинающих, основы Apache Kafka вопросы для проверки знаний

Чтобы сделать ваше самостоятельное обучение Apache Kafka и прочим технологиям Big Data по статьям нашего блога еще более интересным, сегодня мы предлагаем вам открытый интерактивный тест по этой платформе потоковой обработки событий. Ответьте на 10 простых вопросов и узнайте, насколько хорошо вы знакомы с особенностями администрирования и эксплуатации этого популярного брокера сообщений и средства построения event-streaming решений для интеграции информационных систем и аналитики больших данных. Проверь себя: практические основы Big Data В рамках разговора про Apache Kafka для начинающих и основы больших данных, сегодня вам предлагается интерактивный тест из 10 вопросов на знание основ и простых задач, которые часто встречаются на практике при администрировании кластеров и разработке Kafka-приложений. Ответы на многие из этих вопросов мы разбирали в нашем блоге. Подробно Далее …

А можно дешевле: снижаем стоимость аналитики Big Data в приложениях Apache Spark

обучение Apache Spark, курсы Apache Spark, курсы Big Data, обучение Большие данные, курсы Spark для разработчиков Big Data, обучение Spark, обучение инженеров данных, курсы дата-инженер, Apache Spark для разработчиков и инженеров данных

Вчера мы говорили про ускорение аналитики больших данных в конвейере из множества заданий Apache Spark. Продолжая речь про обучение инженеров данных, сегодня рассмотрим, как снизить стоимость выполнения Spark-приложений, сократив накладные расходы на обработку Big Data и повысив эффективность использования кластерной инфраструктуры. Экономика Big Data систем: распределенная разработка и операционные затраты Организация эффективных с экономической точки зрения конвейеров обработки данных (data pipeline) лежит в сфере ответственности инженера Big Data. Однако, на практике не так-то просто объективно оценить адекватность использования вычислительных ресурсов для распределенных приложений. В случае Apache Spark это особенно актуально, т.к. этот Big Data фреймворк упрощает обработку огромных объемов информации, скрывая внутри себя сложность распределенных вычислений и позволяя разработчику оперировать распределенным набором данных как коллекцией объектов в локальной памяти. При Далее …

Ускоряем конвейеры Apache Spark: 3 простых способа

курсы Big Data, обучение Большие данные, курсы Spark SQL, обучение Spark, обучение инженеров данных, курсы дата-инженер, Apache Spark для инженеров данных

Сегодня рассмотрим несколько простых способов ускорить обработку больших данных в рамках конвейера задач Apache Spark. Читайте далее про важность тщательной оценки входных и выходных данных, рандомизацию рабочей нагрузки Big Data кластера и замену JOIN-операций оконными функциями. Оптимизируй это: почему конвейеры аналитической обработки больших данных с Apache Spark замедляются Обычно со временем объемы данных только растут, а логика их обработки становится только сложнее. Поэтому каждый дата-инженер сталкивается с проблемой повышения производительности конвейера обработки Big Data, пытаясь решить ее наиболее эффективно, что означает максимум положительных результатов при минимальных изменениях архитектуры самого pipeline’а. Для этого можно воспользоваться следующими 3-мя способами: навести порядок в выводе конвейера; сбалансировать нагрузку с помощью рандомизации; заменить JOIN-соединения оконными функциями. Каждый из этих способов мы подробнее рассмотрим далее, а Далее …

Сложности перехода: 3 проблемы миграции на Apache AirFlow 2.0 и их решения

курсы по Airflow, Apache Airflow для дата-инженеров, обучение Apache Airflow, курсы для инженеров больших данных, инженерия больших данных обучение, курсы дата-инженер Airflow

В рамках обучения инженеров больших данных, вчера мы рассказывали о новой версии Apache AirFlow 2.0, вышедшей в декабре 2020 года. Сегодня рассмотрим особенности перехода на этот релиз: в чем сложности миграции и как их решить. Читайте далее про сохранение кастомизированных настроек, тонкости работы с базой метаданных и конфигурацию для развертывания тестовой среды. Нельзя просто так взять и перейти на Apache AirFlow 2.0 Рассмотрим кейс американской ИТ-компании Lirio, которая специализируется на применении методов искусственного интеллекта для облегчения коммуникаций с людьми, имеющих проблемы (особенности) физического или ментального здоровья [1]. Разумеется, когда речь идет о машинном обучении и обработке больших объемов информации, в работу вступают технологии Big Data. Оставив за рамкой этой статьи интересную архитектуру и принципы работы приложений Lirio, погрузимся в инженерию Далее …

Apache AirFlow 2.0: что нового?

курсы по Airflow, Apache Airflow для дата-инженеров, обучение Apache Airflow, курсы для инженеров больших данных, инженерия больших данных обучение, курсы дата-инженер Airflow

В конце 2020 года вышел мажорный релиз Apache AirFlow, основные фишки которого мы рассмотрим в этой статье. Читайте далее про 10 главных обновлений Apache AirFlow 2.0, благодаря которым этот DataOps-инструмент для пакетных заданий обработки Big Data стал еще лучше. 10 главных обновлений Apache AirFlow 2.0 Напомним, разработанный в 2014 году в компании Airbnb, через 2 года AirFlow был передан в фонд Apache Software Foundation. С 2019 года этот фреймворк официально стал проектом Apache 1-го уровня. Об основных функциональных возможностях Apache Airflow с примерами практического использования мы рассказывали здесь, а разбору основных достоинствах и недостатках этого DataOps-инструмента автоматизации повторяющихся batch-задач обработки больших данных посвятили эту статью. Полный список изменений в новой версии Airflow, вышедшей в декабре 2020 года, составил около 3000 Далее …

Непростая аналитика больших данных в реальном времени: 3 способа перезапуска заданий Spark Structured Streaming по метке времени Apache Kafka

курсы Apache Kafka, Обучение Kafka, курсы Apache Spark Strucrured Streaming, обучениеApache Kafka, Обучение Apache Kafka и Spark Strucrured Streaming, курсы по большим данным, обучение Big Data, аналитика больших данных в реальном времени обучение на примерах, Big Data, Kafka, архитектура, Большие данные, обработка данных, Spark,

Совместное использование Apache Kafka и Spark очень часто встречается в потоковой аналитике больших данных, например, в прогнозировании пользовательского поведения, о чем мы рассказывали вчера. Однако, временные метки (timestamp) в приложении Spark Structured Streaming могут отличаться от времени события в топике Kafka. Читайте далее, почему это случается и какие подходы к обработке Big Data применять в этом случае. Как течет время в потоковой передаче или еще раз об интеграции Apache Kafka и Spark Итак, рассмотрим сценарий, когда приложение Spark Structured Streaming считывает данные из топиков Apache Kafka, и происходит один из следующих случаев [1]: изменяется конфигурация заданий источника потоковой передачи, например, параметры maxOffsetsPerTrigger, Trigger time, Watermark и пр.; приложение обновилось и нужно отменить предыдущие состояния; обнаружена ошибка в коде и требуется Далее …