Как упростить работу с DWH и Data Lake: DBT + Apache Spark в AWS

Автор Категория , ,
Как упростить работу с DWH и Data Lake: DBT + Apache Spark в AWS

Сегодня рассмотрим, что такое Data Build Tool, как этот ETL-инструмент связан с корпоративным хранилищем и озером данных, а также чем полезен дата-инженеру. В качестве практического примера разберем кейс подключения DBT…

Тонкости интеграции Apache Kafka с Pinot для аналитики больших данных в реальном времени

Автор Категория ,
Тонкости интеграции Apache Kafka с Pinot для аналитики больших данных в реальном времени

Продолжая вчерашний разговор про потоковую аналитику больших данных на Apache Kafka и Pinot, сегодня рассмотрим особенности интеграции этих систем. Читайте далее, как входные данные Kafka разделяются, реплицируются и индексируются в…

Микросервисная real-time аналитика больших данных: потоковый OLAP на Apache Kafka, Pinot, Debezium и CDC

Автор Категория , ,
Микросервисная real-time аналитика больших данных: потоковый OLAP на Apache Kafka, Pinot, Debezium и CDC

В этой статье разберем несколько популярных сценариев потоковой аналитики больших данных на Kafka, CDC-платформе Debezium и быстром OLAP-хранилище Apache Pinot. Читайте далее, почему все эти Big Data технологии отлично подходят…

Премиум-коннектор в люксовый enterprise: интеграция Apache Kafka с Oracle Database

Автор Категория ,
Премиум-коннектор в люксовый enterprise: интеграция Apache Kafka с Oracle Database

В феврале 2021 года разработчики корпоративной версии Apache Kafka с коммерческой поддержкой, компания Confluent, выпустили премиум-коннектор к Oracle – одной из главных реляционных баз данных мира enterprise. Разбираемся, кому и…

5 советов по совместному использованию Apache Spark и PostgreSQL

Автор Категория ,
5 советов по совместному использованию Apache Spark и PostgreSQL

В этой статье по обучению дата-инженеров и разработчиков Big Data рассмотрим, как эффективно записать большие данные в СУБД PostgreSQL с применением Apache Spark. Читайте далее, чем отличается foreach() от foreachBatch(),…

Как вести мониторинг финансовых транзакций в реальном времени с Apache Kafka и Spark в Delta Lake: пример аналитики больших данных

Автор Категория , , ,
Как вести мониторинг финансовых транзакций в реальном времени с Apache Kafka и Spark в Delta Lake: пример аналитики больших данных

Сегодня рассмотрим пример построения системы аналитики больших данных для мониторинга финансовых транзакций в реальном времени на базе облачного Delta Lake и конвейера распределенных приложений Apache Kafka, Spark Structured Streaming и…

Что такое SnappyData (TIBCO ComputeDB) и при чем здесь Apache Spark

Автор Категория ,
Что такое SnappyData (TIBCO ComputeDB) и при чем здесь Apache Spark

Недавно мы уже упоминали о некоторых продуктах на базе Apache Spark. Продолжая обучение основам Big Data, сегодня рассмотрим, что такое SnappyData или TIBCO ComputeDB и как это связано с популярным…

Что такое бакетирование таблиц в Apache Spark SQL и как это улучшает аналитику больших данных

Автор Категория ,
Что такое бакетирование таблиц в Apache Spark SQL и как это улучшает аналитику больших данных

Сегодня поговорим про бакетирование таблиц в Apache Spark для оптимизации производительности заданий и снижения затрат на кластер при их выполнении. Читайте далее, что такое Bucketing в Spark SQL и как…

ksqlDB и Kafka Streams: versus или вместе – сходства и различия инструментов потоковой аналитики Big Data

Автор Категория ,
ksqlDB и Kafka Streams: versus или вместе – сходства и различия инструментов потоковой аналитики Big Data

Продолжая разговор про обучение разработчиков Apache Kafka, сегодня рассмотрим, чем ksqlDB отличается от Kafka Streams. Также читайте далее про основные достоинства и недостатки перезапуска KSQL в виде отдельной базы данных…

Потоковая аналитика больших данных с ksqlDB на Kubernetes: практический пример

Автор Категория , ,
Потоковая аналитика больших данных с ksqlDB на Kubernetes: практический пример

В этой статье поговорим про KSQL на примере кейса компании американской компании Pluralsight, которая предлагает различные обучающие видео-курсы для разработчиков ПО, ИТ-администраторов и творческих профессионалов. Читайте далее, как использовать Apache…