Как ускорить Greenplum: настраиваем память хостов и сегментов

Автор Категория ,
Как ускорить Greenplum: настраиваем память хостов и сегментов

Продолжая рассказывать про наш новый курс «Greenplum для инженеров данных», сегодня поговорим про особенности конфигурирования памяти в этой MPP-СУБД: разберем, как память хоста распределяется между сегментами и рассмотрим, как администратор…

Как избавиться от перекосов в Apache Spark: coalesce vs repartition

Автор Категория ,
Как избавиться от перекосов в Apache Spark: coalesce vs repartition

Чтобы сделать обучение разработчиков Apache Spark, дата-аналитиков и инженеров Big Data еще более наглядным, сегодня рассмотрим проблему JOIN-соединений при неравномерном распределении данных по узлам кластера и способы ее решения. Читайте…

3 проблемы приложений Apache Kafka Streams из-за RocksDB и способы их решения

Автор Категория ,
3 проблемы приложений Apache Kafka Streams из-за RocksDB и способы их решения

Вчера мы рассказывали, почему некоторые OOM-ошибки stateful-приложений Kafka Streams могут быть вызваны некорректной работой RocksDB – встроенного key-value NoSQL-хранилище состояний. Сегодня рассмотрим, какие проблемы с дисковыми операциями характерны для этой…

Исправляем OOM-ошибки приложений Apache Kafka Streams через конфигурирование RocksDB

Автор Категория ,
Исправляем OOM-ошибки приложений Apache Kafka Streams через конфигурирование RocksDB

Сегодня заглянем под капот stateful-приложений Kafka Streams и рассмотрим, что такое RocksDB, как устроено это key-value NoSQL-хранилище и почему его необходимо настраивать для быстрой и безотказной работы приложений потоковой аналитики…

Большие данные под защитой: лучшие практики cybersecurity в Greenplum

Автор Категория , ,
Большие данные под защитой: лучшие практики cybersecurity в Greenplum

Хотя наш новый курс «Greenplum для инженеров данных» и не предполагает подробное изучение инструментов администрирования кластера этой MPP-СУБД, сегодня мы рассмотрим некоторые из них. Читайте далее про особенности шифрования в…

Real-time аналитика больших данных о сетевом трафике с Apache Kafka и Spark

Автор Категория , , ,
Real-time аналитика больших данных о сетевом трафике с Apache Kafka и Spark

Продолжая добавлять в наши практические курсы по Apache Kafka и Spark еще больше интересных примеров, сегодня рассмотрим, как с помощью этих технологий Big Data анализировать метаданные сетевых потоков в реальном…

Помнить все: 10 практик устранения нехватки памяти в Greenplum и 2 схемы управления ресурсами кластера

Автор Категория , ,
Помнить все: 10 практик устранения нехватки памяти в Greenplum и 2 схемы управления ресурсами кластера

Развивая наш новый курс «Greenplum для инженеров данных», сегодня рассмотрим, почему в этой MPP-СУБД возникают проблемы нехватки памяти, каковы типовые способы их решения и чем очереди ресурсов отличаются от ресурсных…

Аналитика больших данных с JSON и AVRO в Apache Kafka: кейс компании Mobimeo

Автор Категория , ,
Аналитика больших данных с JSON и AVRO в Apache Kafka: кейс компании Mobimeo

Чтобы добавить в наши практические курсы по Apache Kafka еще больше интересных примеров, сегодня рассмотрим кейс немецкой ИТ-компании Mobimeo, которая несколько раз перекраивала свою систему аналитики больших данных, чтобы быстро…

3 технологии высокой доступности Greenplum для администратора Big Data кластера

Автор Категория ,
3 технологии высокой доступности Greenplum для администратора Big Data кластера

Продолжая рассказывать про наш новый курс «Greenplum для инженеров данных», сегодня рассмотрим некоторые особенности хранения данных в этой MPP-СУБД, а также разберем связанные с ними лучшие практики ее администрирования. Читайте…

Как построить OLAP-конвейер в реальном времени на Greenplum и Apache NiFi: разбор интеграционного коннектора для приема больших данных

Автор Категория , ,
Как построить OLAP-конвейер в реальном времени на Greenplum и Apache NiFi: разбор интеграционного коннектора для приема больших данных

Сегодня разберем еще одну интересную тему из нашего нового курса «Greenplum для инженеров данных» по построению конвейеров приема данных для этой MPP-СУБД в рамках веб-интерфейса платформы автоматизированного управления потоками работ…