Сегодня рассмотрим пример программы лояльности турецкого интернет-магазина Trendyol, где Apache Kafka и документо-ориентированная NoSQL-СУБД Couchbase используются для генерации купонов на скидки. Почему при большом объеме данных случаются проблемы тайм-аутов в…
Метка: Большие данные
Apache Spark 3.3.0: ТОП-10 новинок июьского релиза 2022
Автор Анна ВичуговаКатегория Spark, Статьи16 июня 2022 года вышла новая версия Apache Spark – 3.3.0. Разбираем главные фичи этого минорного релиза, особенно важные для дата-инженера и разработчика распределенных приложений: от расширения поддержки ANSI SQL…
Мониторинг задержки в приложениях Apache Flink
Автор Анна ВичуговаКатегория Flink, СтатьиНедавно мы говорили про непрерывный мониторинг Flink-приложений и подробно рассмотрели метрики состояния и пропускной способности. В продолжение этой важной для разработчиков и дата-инженеров темы, сегодня рассмотрим, как идентифицировать временную задержку…
Происхождение данных в Apache Spark со Spline и не только
Автор Анна ВичуговаКатегория Spark, СтатьиВчера мы рассказывали, почему важна наблюдаемость данных какие платформы помогают комплексно обеспечить все ее аспекты. В продолжение этой темы сегодня заглянем под капот происхождения данных в Apache Spark с помощью…
Что такое наблюдаемость данных и как ее обеспечить
Автор Анна ВичуговаКатегория Статьи, Цифровая трансформацияСегодня рассмотрим, почему наблюдаемость данных так важная для проектов Big Data, какие компоненты обеспечивают ценную информацию о качестве и надежности данных, чем это похоже на DataOps, а также как эти…
Мониторинг приложений Apache Flink: метрики и инструменты
Автор Анна ВичуговаКатегория Flink, СтатьиСпециально для обучения разработчиков распределенных приложений и дата-инженеров масштабных платформ аналитики больших данных на Apache Flink, рассмотрим наиболее важные системные показатели, а также инструменты мониторинга этих метрик. Мониторинг Flink-приложений: особенности…
7 приемов оптимизации SQL-запросов в Apache Hive с движком Tez
Автор Анна ВичуговаКатегория Hive, СтатьиДля обучения дата-инженеров и аналитиков данных, сегодня рассмотрим приемы оптимизации SQL-запросов в Apache Hive, выполняемых движком Tez. Каким образом Tez рассчитывает оптимальное количество редукторов, зачем включать индексацию фильтров, как статистика…
Greenplum 6.21.0: новые фичи и исправления ошибок
Автор Анна ВичуговаКатегория Greenplum, Статьи10 июня 2022 года вышел свежий релиз популярной MPP-СУБД. Разбираемся с улучшениями функциональных возможностей и решенными проблемами в Greenplum версии 6.21.0. Самое важное для администратора кластера и дата-инженера. 4…
Управляемые повторы отправки сообщений из Apache Kafka c фреймворком Sping
Автор Анна ВичуговаКатегория Kafka, СтатьиСпециально для обучения разработчиков распределенных приложений и дата-инженеров, рассмотрим практический пример использования возможностей фреймворка Spring для управления повторными попытками отправки сообщений потребителям из топика Apache Kafka. Повторные попытки отправки сообщений…
Потоки и пакеты: сходства, отличия и примеры применения
Автор Анна ВичуговаКатегория СтатьиСегодня рассмотрим 2 основные категории технологий обработки данных: пакетную и потоковую. Что общего между batch и stream processing, где они применяются, какими технологиями поддерживаются, можно ли их использовать вместе и…