Сегодня рассмотрим, что такое Data Build Tool, как этот ETL-инструмент связан с корпоративным хранилищем и озером данных, а также чем полезен дата-инженеру. В качестве практического примера разберем кейс подключения DBT…
Метка: SQL
Тонкости интеграции Apache Kafka с Pinot для аналитики больших данных в реальном времени
Автор Анна ВичуговаКатегория Kafka, Статьи
Продолжая вчерашний разговор про потоковую аналитику больших данных на Apache Kafka и Pinot, сегодня рассмотрим особенности интеграции этих систем. Читайте далее, как входные данные Kafka разделяются, реплицируются и индексируются в…
Микросервисная real-time аналитика больших данных: потоковый OLAP на Apache Kafka, Pinot, Debezium и CDC
Автор Анна ВичуговаКатегория Kafka, Use Cases, Статьи
В этой статье разберем несколько популярных сценариев потоковой аналитики больших данных на Kafka, CDC-платформе Debezium и быстром OLAP-хранилище Apache Pinot. Читайте далее, почему все эти Big Data технологии отлично подходят…
Премиум-коннектор в люксовый enterprise: интеграция Apache Kafka с Oracle Database
Автор Анна ВичуговаКатегория Kafka, Статьи
В феврале 2021 года разработчики корпоративной версии Apache Kafka с коммерческой поддержкой, компания Confluent, выпустили премиум-коннектор к Oracle – одной из главных реляционных баз данных мира enterprise. Разбираемся, кому и…
5 советов по совместному использованию Apache Spark и PostgreSQL
Автор Анна ВичуговаКатегория Spark, Статьи
В этой статье по обучению дата-инженеров и разработчиков Big Data рассмотрим, как эффективно записать большие данные в СУБД PostgreSQL с применением Apache Spark. Читайте далее, чем отличается foreach() от foreachBatch(),…
Как вести мониторинг финансовых транзакций в реальном времени с Apache Kafka и Spark в Delta Lake: пример аналитики больших данных
Автор Анна ВичуговаКатегория Kafka, Spark, Use Cases, Статьи
Сегодня рассмотрим пример построения системы аналитики больших данных для мониторинга финансовых транзакций в реальном времени на базе облачного Delta Lake и конвейера распределенных приложений Apache Kafka, Spark Structured Streaming и…
Что такое SnappyData (TIBCO ComputeDB) и при чем здесь Apache Spark
Автор Анна ВичуговаКатегория Spark, Статьи
Недавно мы уже упоминали о некоторых продуктах на базе Apache Spark. Продолжая обучение основам Big Data, сегодня рассмотрим, что такое SnappyData или TIBCO ComputeDB и как это связано с популярным…
Что такое бакетирование таблиц в Apache Spark SQL и как это улучшает аналитику больших данных
Автор Анна ВичуговаКатегория Spark, Статьи
Сегодня поговорим про бакетирование таблиц в Apache Spark для оптимизации производительности заданий и снижения затрат на кластер при их выполнении. Читайте далее, что такое Bucketing в Spark SQL и как…
ksqlDB и Kafka Streams: versus или вместе – сходства и различия инструментов потоковой аналитики Big Data
Автор Анна ВичуговаКатегория Kafka, Статьи
Продолжая разговор про обучение разработчиков Apache Kafka, сегодня рассмотрим, чем ksqlDB отличается от Kafka Streams. Также читайте далее про основные достоинства и недостатки перезапуска KSQL в виде отдельной базы данных…
Потоковая аналитика больших данных с ksqlDB на Kubernetes: практический пример
Автор Анна ВичуговаКатегория Kafka, Use Cases, Статьи
В этой статье поговорим про KSQL на примере кейса компании американской компании Pluralsight, которая предлагает различные обучающие видео-курсы для разработчиков ПО, ИТ-администраторов и творческих профессионалов. Читайте далее, как использовать Apache…