Apache NiFi 1.14.0: что нового? Главные обновления июля 2021

Автор Категория ,
Apache NiFi 1.14.0: что нового? Главные обновления июля 2021

14 июля 2021 года вышел минорный релиз Apache NiFi – версия 1.14.0. Сегодня рассмотрим его главные фичи, исправленные ошибки и улучшения, уделив особое внимание новым функциям обеспечения информационной безопасности в…

100% SLA в Apache Kafka: AVRO, заголовки и повторные попытки обработки данных

Автор Категория , ,
100% SLA в Apache Kafka: AVRO, заголовки и повторные попытки обработки данных

Продолжая разбирать тонкости сериализации данных в Apache Kafka на практических примерах, сегодня рассмотрим кейс индийской ИТ-компании Naukri Engineering о повторной обработке сообщений и особенностях форматов. Читайте далее, чем хороши заголовки…

Tez vs Spark: что выбрать для Apache Hive

Автор Категория , ,
Tez vs Spark: что выбрать для Apache Hive

Вчера мы упоминали, что использование Spark или Tez в качестве движка исполнения SQL-запросов в Apache Hive вместо классического Hadoop MapReduce намного ускоряет аналитику больших данных. Сегодня рассмотрим подробнее, чем отличаются…

Как ускорить SQL-запросы в Apache Hive: ТОП-5 методов оптимизации

Автор Категория ,
Как ускорить SQL-запросы в Apache Hive: ТОП-5 методов оптимизации

Apache Hive – востребованный инструмент класса SQL-on-Hadoop, который также активно используется в работе с фреймворком Spark. Поэтому сегодня разберем важную тему из обучения дата-инженеров и аналитиков больших данных про оптимизацию…

5 вопросов про масштабирование Spark-приложений

Автор Категория ,
5 вопросов про масштабирование Spark-приложений

Чтобы добавить в наши курсы по Spark еще больше практических кейсов, сегодня ответим на самые частые вопросы относительно масштабирования распределенных приложений, написанных с помощью этого фреймворка. Читайте далее о пользе…

3 тонкости процессоров в NiFi, о которых вы не знали + 5 лучших практик конфигурирования

Автор Категория ,
3 тонкости процессоров в NiFi, о которых вы не знали + 5 лучших практик конфигурирования

Продолжая обучение дата-инженеров, сегодня рассмотрим, как сделать управление потоками данных в Apache NiFi эффективнее. Читайте далее, какие настройки позволят обойтись без процессора RetryFlowFile для повторных попыток, зачем менять GetFile на…

Еще больше потоковой аналитики Big Data с Kafka Streams: обработка больших сообщений

Автор Категория ,
Еще больше потоковой аналитики Big Data с Kafka Streams: обработка больших сообщений

Сегодня рассмотрим проблему обработки больших сообщений в Apache Kafka Streams и способы ее решения с помощью средства сериализации и десериализации (SerDe) от немецкой ИТ-компании Bakdata. Узнайте, почему максимального лимита конфигурации…

JVM Garbage Collection и не только: 7 причин OOM-ошибки в Apache Spark

Автор Категория ,
JVM Garbage Collection и не только: 7 причин OOM-ошибки в Apache Spark

Обучая разработчиков Big Data, сегодня рассмотрим, почему в распределенных приложениях Apache Spark случаются OOM-ошибки. Читайте далее, как работает сборка мусора JVM в Spark-приложениях, почему из-за нее случаются утечки памяти и…

5 проблем Apache NiFi на Kubernetes и способы их решения

Автор Категория , ,
5 проблем Apache NiFi на Kubernetes и способы их решения

В рамках нового курса Apache NiFi для инженеров данных, сегодня разберем особенности развертывания этого маршрутизатора потоков Big Data на платформе управления контейнерными приложениями Kubernetes. Советы дата-инженерам, как сократить расходы на…

Как устроен JDBC-коннектор источника Kafka Confluent и при чем здесь реестр схем

Автор Категория ,
Как устроен JDBC-коннектор источника Kafka Confluent и при чем здесь реестр схем

Недавно мы рассматривали пример потоковой передачи данных между реляционными СУБД с помощью готовых JDBC-коннекторов через cURL-вызовы к REST API Kafka Connect. Сегодня заглянем под капот такой интеграции и разберем подробнее,…