Поскольку наши курсы по Apache Spark предполагают практическое обучение с глубоким погружением в особенности разработки и настройки распределенных приложений, сегодня рассмотрим, как именно выполняются кластерные вычисления в рамках этого Big…
Метка: Big Data
5 преимуществ разделения пакетов в Apache AirFlow 2.0 или как создать свой провайдер с блэкджеком и хуками
Автор Анна ВичуговаКатегория AirFlow, Статьи
Чтобы добавить в наши обновленные авторские курсы для дата-инженеров по Apache AirFlow еще больше интересного, сегодня продолжим разбирать полезные дополнения релиза 2.0 и поговорим, почему разделение фреймворка на пакеты делает…
3 новинки для DAG в Apache AirFlow 2.0
Автор Анна ВичуговаКатегория AirFlow, Статьи
В поддержку наших полностью обновленных авторских курсов для инженеров данных по Apache AirFlow, сегодня рассмотрим новые способы определения DAG, которые были добавлены в релизе 2.0. Читайте далее, что под капотом…
Тонкости интеграции Apache Kafka с Pinot для аналитики больших данных в реальном времени
Автор Анна ВичуговаКатегория Kafka, Статьи
Продолжая вчерашний разговор про потоковую аналитику больших данных на Apache Kafka и Pinot, сегодня рассмотрим особенности интеграции этих систем. Читайте далее, как входные данные Kafka разделяются, реплицируются и индексируются в…
Микросервисная real-time аналитика больших данных: потоковый OLAP на Apache Kafka, Pinot, Debezium и CDC
Автор Анна ВичуговаКатегория Kafka, Use Cases, Статьи
В этой статье разберем несколько популярных сценариев потоковой аналитики больших данных на Kafka, CDC-платформе Debezium и быстром OLAP-хранилище Apache Pinot. Читайте далее, почему все эти Big Data технологии отлично подходят…
7 важных функций, которых еще нет в новой Apache Kafka без Zookeeper
Автор Анна ВичуговаКатегория Kafka, Статьи
Вчера мы упоминали, как долгожданный KIP-500, реализованный в марте 2021 года, позволяет не только отказаться от Zookeeper в кластере Apache Kafka, но и снимает ограничение числа разделов, чтобы масштабировать брокеры…
Сколько разделов вам нужно и при чем здесь KIP-500: разбираемся с партиционированием в Apache Kafka
Автор Анна ВичуговаКатегория Kafka, Статьи
Сегодня рассмотрим важную практическую задачу из курсов Kafka для разработчиков и администраторов кластера – разделение топиков по брокерам. Читайте далее, как пропускная способность всей Big Data системы зависит от числа…
Зачем нужны коммитеры S3A: решаем проблемы совместимости Amazon S3 с Hadoop HDFS
Автор Анна ВичуговаКатегория Spark, Use Cases, Статьи
В поддержку курса Hadoop для инженеров данных сегодня разберем, в чем проблема безопасной отправки заданий и файлов в облачное хранилище Amazon S3 и как ее решить. Читайте далее, почему AWS…
Как Spark-приложению выполнять миллионы операций в секунду с данными в AWS S3
Автор Анна ВичуговаКатегория Spark, Use Cases, Статьи
Чтобы сделать курсы Hadoop и Spark для инженеров данных еще более интересными, сегодня мы рассмотрим кейс фудтех-компании iFood – лидера рынка доставки еды в странах Латинской Америки. Читайте далее, в…
Как сэкономить на AWS со Spark и Kubernetes: спотовые узлы и готовые платформы
Автор Анна ВичуговаКатегория Spark, Use Cases, Статьи
Продолжая разговор про оптимизацию приложений Apache Spark в Kubernetes, сегодня разберем, как сократить расходы на облачный кластер с помощью спотовых узлов. А в качестве практического примера рассмотрим кейс компании Weather2020,…