Чтобы еще быстрее рассказывать вам свежие новости мира больших данных, а также информировать о наших курсах, акциях, статьях и прочих интересных событиях, мы запустили Telegram-канал https://t.me/BigDataSchool_ru. Подписывайтесь и получайте самые…
Рубрика: Новости
Новости мира больших данных: свежие релизы Apache Hadoop, Spark, Kafka и прочих технологий Big Data, объявления о событиях и акциях
От контекста до драйвера: что под капотом Spark-приложения
Автор Анна ВичуговаКатегория Spark, Статьи
Поскольку наши курсы по Apache Spark предполагают практическое обучение с глубоким погружением в особенности разработки и настройки распределенных приложений, сегодня рассмотрим, как именно выполняются кластерные вычисления в рамках этого Big…
5 преимуществ разделения пакетов в Apache AirFlow 2.0 или как создать свой провайдер с блэкджеком и хуками
Автор Анна ВичуговаКатегория AirFlow, Статьи
Чтобы добавить в наши обновленные авторские курсы для дата-инженеров по Apache AirFlow еще больше интересного, сегодня продолжим разбирать полезные дополнения релиза 2.0 и поговорим, почему разделение фреймворка на пакеты делает…
5 часов новых знаний и профессионального опыта от 11 экспертов: первая клиентская конференция Arenadata
Автор Анна ВичуговаКатегория Events, Новости
Ровно через неделю, в четверг 15 апреля, с 10:00 до 15:00 МСК наш партнер компания Arenadata, разработчик отечественных решений для обработки и хранения больших данных, проводит первую клиентскую конференцию Big…
3 новинки для DAG в Apache AirFlow 2.0
Автор Анна ВичуговаКатегория AirFlow, Статьи
В поддержку наших полностью обновленных авторских курсов для инженеров данных по Apache AirFlow, сегодня рассмотрим новые способы определения DAG, которые были добавлены в релизе 2.0. Читайте далее, что под капотом…
Тонкости интеграции Apache Kafka с Pinot для аналитики больших данных в реальном времени
Автор Анна ВичуговаКатегория Kafka, Статьи
Продолжая вчерашний разговор про потоковую аналитику больших данных на Apache Kafka и Pinot, сегодня рассмотрим особенности интеграции этих систем. Читайте далее, как входные данные Kafka разделяются, реплицируются и индексируются в…
Микросервисная real-time аналитика больших данных: потоковый OLAP на Apache Kafka, Pinot, Debezium и CDC
Автор Анна ВичуговаКатегория Kafka, Use Cases, Статьи
В этой статье разберем несколько популярных сценариев потоковой аналитики больших данных на Kafka, CDC-платформе Debezium и быстром OLAP-хранилище Apache Pinot. Читайте далее, почему все эти Big Data технологии отлично подходят…
7 важных функций, которых еще нет в новой Apache Kafka без Zookeeper
Автор Анна ВичуговаКатегория Kafka, Статьи
Вчера мы упоминали, как долгожданный KIP-500, реализованный в марте 2021 года, позволяет не только отказаться от Zookeeper в кластере Apache Kafka, но и снимает ограничение числа разделов, чтобы масштабировать брокеры…
Сколько разделов вам нужно и при чем здесь KIP-500: разбираемся с партиционированием в Apache Kafka
Автор Анна ВичуговаКатегория Kafka, Статьи
Сегодня рассмотрим важную практическую задачу из курсов Kafka для разработчиков и администраторов кластера – разделение топиков по брокерам. Читайте далее, как пропускная способность всей Big Data системы зависит от числа…
Зачем нужны коммитеры S3A: решаем проблемы совместимости Amazon S3 с Hadoop HDFS
Автор Анна ВичуговаКатегория Spark, Use Cases, Статьи
В поддержку курса Hadoop для инженеров данных сегодня разберем, в чем проблема безопасной отправки заданий и файлов в облачное хранилище Amazon S3 и как ее решить. Читайте далее, почему AWS…