100% SLA в Apache Kafka: AVRO, заголовки и повторные попытки обработки данных

Автор Категория , ,
100% SLA в Apache Kafka: AVRO, заголовки и повторные попытки обработки данных

Продолжая разбирать тонкости сериализации данных в Apache Kafka на практических примерах, сегодня рассмотрим кейс индийской ИТ-компании Naukri Engineering о повторной обработке сообщений и особенностях форматов. Читайте далее, чем хороши заголовки…

Кастомизация Apache Airflow: мониторинг исполнения Big Data pipeline’ов со своими KPI

Автор Категория , ,
Кастомизация Apache Airflow: мониторинг исполнения Big Data pipeline’ов со своими KPI

Добавляя в наши курсы по Apache AirFlow еще больше полезных практик, сегодня разберем опыт дата-инженеров американской компании Groupon по настройке этого фреймворка. Читайте далее, как добавить собственные KPI исполнения конвейеров…

Почему stateful-приложения Apache Flink падают в AWS: RocksDB и IOPS облачных SSD

Автор Категория , ,
Почему stateful-приложения Apache Flink падают в AWS: RocksDB и IOPS облачных SSD

Продолжая разбирать особенности разработки потоковых приложений Apache Flink, сегодня рассмотрим проблему падения пропускной способности задания из-за встроенного хранилища состояний RocksDB и ее зависимость от производительности дисков. Вас ждет настоящая детективная…

3 вопроса про Apache NiFi от дата-инженеров: отвечает Cloudera

Автор Категория , , ,
3 вопроса про Apache NiFi от дата-инженеров: отвечает Cloudera

Запуская наш новый курс по Apache NiFi для инженеров данных, сегодня рассмотрим 3 популярных вопроса про этот Big Data фреймворк с комментариями компании Cloudera. Читайте далее, может ли NiFi заменить…

Всего 2 cURL-вызова для потокового обновления данных с Apache Kafka Connect

Автор Категория , ,
Всего 2 cURL-вызова для потокового обновления данных с Apache Kafka Connect

Сегодня в рамках обучения разработчиков распределенных приложений и дата-инженеров рассмотрим практический пример потоковой интеграции данных из 2-х разных источников с Apache Kafka. Читайте далее, как мгновенно передать данные между реляционными…

Кейс потоковой аналитики больших данных с Apache Kafka, Spark (Flink) и BI-системами

Автор Категория , , , , , ,
Кейс потоковой аналитики больших данных с Apache Kafka, Spark (Flink) и BI-системами

Сегодня рассмотрим пример построения системы потоковой аналитики больших данных на базе Apache Kafka, Spark, Flink, NoSQL-СУБД, BI-системой Tableau или визуализацией в Kibana. Читайте далее, кому и зачем исследовать Twitter-посты в…

Как повысить эффективность Apache Airflow в 3 раза с помощью прокси-сервера RDS

Автор Категория , ,
Как повысить эффективность Apache Airflow в 3 раза с помощью прокси-сервера RDS

Увеличение пропускной способности и повышение скорости обработки данных на любой Big Data платформе при приемлемых затратах – одна из главных задач дата-инженера. Сегодня мы рассмотрим, как улучшить производительность множества экземпляров…

Большие данные под защитой: лучшие практики cybersecurity в Greenplum

Автор Категория , ,
Большие данные под защитой: лучшие практики cybersecurity в Greenplum

Хотя наш новый курс «Greenplum для инженеров данных» и не предполагает подробное изучение инструментов администрирования кластера этой MPP-СУБД, сегодня мы рассмотрим некоторые из них. Читайте далее про особенности шифрования в…

Real-time аналитика больших данных о сетевом трафике с Apache Kafka и Spark

Автор Категория , , ,
Real-time аналитика больших данных о сетевом трафике с Apache Kafka и Spark

Продолжая добавлять в наши практические курсы по Apache Kafka и Spark еще больше интересных примеров, сегодня рассмотрим, как с помощью этих технологий Big Data анализировать метаданные сетевых потоков в реальном…

Помнить все: 10 практик устранения нехватки памяти в Greenplum и 2 схемы управления ресурсами кластера

Автор Категория , ,
Помнить все: 10 практик устранения нехватки памяти в Greenplum и 2 схемы управления ресурсами кластера

Развивая наш новый курс «Greenplum для инженеров данных», сегодня рассмотрим, почему в этой MPP-СУБД возникают проблемы нехватки памяти, каковы типовые способы их решения и чем очереди ресурсов отличаются от ресурсных…