В свежем релизе Apache Kafka 3.2.0, который вышел 17 мая 2022 года, о чем мы писали здесь, есть много интересных улучшений для повышения устойчивости потоковых приложений. Почему важна новая фича…
Метка: RocksDB
Потоковая аналитика пользовательских сеансов с Apache Flink на примере Wynk
Автор Анна ВичуговаКатегория Flink, СтатьиВ этой статье для инженеров данных и разработчиков Hadoop-приложений рассмотрим опыт индийской компании Wynk по применению Apache Flink в качестве средства потоковой аналитики больших данных пользовательского поведения в мобильных приложениях…
Потоковый веб-парсинг на Apache Flink + RabbitMQ: кейс от дата-инженеров FiscalNote
Автор Анна ВичуговаКатегория Flink, СтатьиВ этой статье для дата-инженеров и разработчиков распределенных приложений разберем кейс американской ИТ-компании FiscalNote, которая использует Apache Flink в качестве движка потоковой обработки информации со сторонних веб-сайтов. Трудности сериализации сообщений…
ksqlDB 0.22.0: ноябрьское обновление компонента Apache Kafka от Confluence
Автор Анна ВичуговаКатегория Kafka, Статьи3 ноября 2021 года компания Confluent, которая занимается продвижением и коммерциализацией Apache Kafka, выпустила новый релиз ksqlDB, который включает 20 исправленных ошибок и 18 добавленных фич. Самое интересное в выпуске…
Savepoint vs Checkpoint в Apache Flink: сходства и отличия
Автор Анна ВичуговаКатегория Flink, СтатьиРазбираемся с механизмами отказоустойчивости Flink-приложений. Что такое контрольные точки (Checkpoint), чем они отличаются от точек сохранения (Savepoint) и что между ними общего. А также при чем здесь snapshot, что выбирать…
Управление состояниями в Apache Flink: краткий ликбез
Автор Анна ВичуговаКатегория Flink, СтатьиЧто такое состояния в приложениях Apache Flink, каких видов они бывают, как ими управлять и зачем это нужно: основы разработки stateful-заданий и API DataStream. Чем состояние с ключом отличается от…
Почему stateful-приложения Apache Flink падают в AWS: RocksDB и IOPS облачных SSD
Автор Анна ВичуговаКатегория Flink, Use Cases, СтатьиПродолжая разбирать особенности разработки потоковых приложений Apache Flink, сегодня рассмотрим проблему падения пропускной способности задания из-за встроенного хранилища состояний RocksDB и ее зависимость от производительности дисков. Вас ждет настоящая детективная…
RocksDB как хранилище состояний для stateful-приложений Apache Flink
Автор Анна ВичуговаКатегория Flink, СтатьиМы уже рассказывали, что приложения Kafka Streams используют RocksDB в качестве хранилища состояний. Сегодня рассмотрим, как это key-value NoSQL-СУБД используется для разработки stateful-приложений Apache Flink. Читайте далее о преимуществах и…
Согласованность и полнота распределенной обработки потоков в Apache Kafka Streams
Автор Анна ВичуговаКатегория Kafka, СтатьиСегодня рассмотрим 2 важных понятия архитектуры распределенных систем для хранения и аналитики больших данных на примере платформы потоковой обработки событий Apache Kafka.Читайте далее, что такое согласованность и полнота, а также…
3 проблемы приложений Apache Kafka Streams из-за RocksDB и способы их решения
Автор Анна ВичуговаКатегория Kafka, СтатьиВчера мы рассказывали, почему некоторые OOM-ошибки stateful-приложений Kafka Streams могут быть вызваны некорректной работой RocksDB – встроенного key-value NoSQL-хранилище состояний. Сегодня рассмотрим, какие проблемы с дисковыми операциями характерны для этой…