Как упростить работу с DWH и Data Lake: DBT + Apache Spark в AWS

Автор Категория , ,
Как упростить работу с DWH и Data Lake: DBT + Apache Spark в AWS

Сегодня рассмотрим, что такое Data Build Tool, как этот ETL-инструмент связан с корпоративным хранилищем и озером данных, а также чем полезен дата-инженеру. В качестве практического примера разберем кейс подключения DBT…

Быстрая OLAP-аналитика больших данных в Delta Lake c Apache Spark SQL и Presto

Автор Категория , , ,
Быстрая OLAP-аналитика больших данных в Delta Lake c Apache Spark SQL и Presto

В этой статье рассмотрим, как сделать SQL-запросы к колоночному хранилищу больших данных с поддержкой ACID-транзакций Delta Lake еще быстрее с помощью Apache Presto. Читайте далее про синергию совместного использования Apache…

Как опередить спрос на модные новинки с облачными технологиями Big Data: кейс компании Boden по Apache Kafka и Snowflake

Автор Категория , ,
Как опередить спрос на модные новинки с облачными технологиями Big Data: кейс компании Boden по Apache Kafka и Snowflake

Интерактивная аналитика больших данных – одно из самых востребованных и коммерциализированных приложений для технологий Big Data. В этой статье мы рассмотрим, как крупный британский ритейлер запустил цифровую трансформацию своей ИТ-архитектуры,…

DataOps и инженерия больших данных: 10 лучших практик от корпорации DNB

Автор Категория , , ,
DataOps и инженерия больших данных: 10 лучших практик от корпорации DNB

Чтобы добавить в наши курсы для дата-инженеров еще больше реальных примеров и лучших DataOps-практик, сегодня мы расскажем, как специалисты крупной норвежской компании DNB обеспечивают надежный доступ к чистым и точным…

Борьба за качество больших данных в Airbnb: 3 направления для Big Data Quality

Автор Категория , , ,
Борьба за качество больших данных в Airbnb: 3 направления для Big Data Quality

Аналитика больших данных напрямую связана с их качеством, которое необходимо отслеживать на каждом этапе непрерывного конвейера их обработки (Pipeline). Сегодня рассмотрим методы и средства обеспечения Data Quality на примере корпорации…

Заменит ли Apache Kafka в прочие СУБД в мире Big Data: за и против

Автор Категория ,
Заменит ли Apache Kafka в прочие СУБД в мире Big Data: за и против

В этой статье мы поговорим про возможность нехарактерного использования Apache Kafka: не как распределенной стримминговой платформы или брокера сообщений, а в виде базы данных. Читайте далее, как Apache Kafka дополняет…

Аналитика больших данных для фармацевтов: Arenadata Hadoop и другие Big Data системы в аптечной сети АСНА

Автор Категория , , , ,
Аналитика больших данных для фармацевтов: Arenadata Hadoop и другие Big Data системы в аптечной сети АСНА

В этой статье разберем кейс построения экосистемы управления Big Data с озером данных на примере федеральной фармацевтической сети – российской Ассоциации независимых аптек (АСНА). Читайте в этом материале, зачем фармацевтическому…

Big Data в профиль: что такое профилирование больших данных

Автор Категория , , ,
Big Data в профиль: что такое профилирование больших данных

Мы уже затрагивали тему корпоративных хранилищ данных (КХД), управления мастер-данными и нормативно-справочной информаций (НСИ) в контексте технологий Big Data. В продолжение этого, сегодня рассмотрим, что такое профилирование данных, зачем это…

От беспорядочных связей к микросервисной консистентности: архитектурная история Big Data систем на примере Apache Kafka

Автор Категория , ,
От беспорядочных связей к микросервисной консистентности: архитектурная история Big Data систем на примере Apache Kafka

В этой статье поговорим про интеграцию информационных систем: обсудим SOA и ESB-подходы, рассмотрим стриминговую архитектуру и возможности Apache Kafka для организации быстрого и эффективного обмена данными между различными бизнес-приложениями. Также…

Интеграция Elasticsearch с Apache Hadoop: примеры и особенности

Автор Категория , , , ,
Интеграция Elasticsearch с Apache Hadoop: примеры и особенности

В этой статье поговорим про интеграцию ELK-стека с экосистемой Apache Hadoop: зачем это нужно и с помощью каких средств можно организовать обмен данными между HDFS и Elasticsearch, а также при…