Как хранить большие данных в Greenplum: ТОП-15 рекомендаций

Автор Категория ,
Как хранить большие данных в Greenplum: ТОП-15 рекомендаций

Продвигая наш новый курс «Greenplum для инженеров данных», сегодня мы рассмотрим особенности организации таблиц в этой MPP-СУБД, типы данных и оптимальное расположение столбцов. Читайте далее, чем heap storage отличается от…

Как упростить работу с DWH и Data Lake: DBT + Apache Spark в AWS

Автор Категория , ,
Как упростить работу с DWH и Data Lake: DBT + Apache Spark в AWS

Сегодня рассмотрим, что такое Data Build Tool, как этот ETL-инструмент связан с корпоративным хранилищем и озером данных, а также чем полезен дата-инженеру. В качестве практического примера разберем кейс подключения DBT…

От пакетного до потокового озера данных с Apache Kafka: кейс компании Trainline

Автор Категория ,
От пакетного до потокового озера данных с Apache Kafka: кейс компании Trainline

Постоянно добавляя в наши курсы Apache Kafka для разработчиков интересные и практические примеры, сегодня мы разберем кейс тревел-площадки Trainline, которая агрегирует данные от 270 железнодорожных и автобусных компаний в 45…

Как вести мониторинг финансовых транзакций в реальном времени с Apache Kafka и Spark в Delta Lake: пример аналитики больших данных

Автор Категория , , ,
Как вести мониторинг финансовых транзакций в реальном времени с Apache Kafka и Spark в Delta Lake: пример аналитики больших данных

Сегодня рассмотрим пример построения системы аналитики больших данных для мониторинга финансовых транзакций в реальном времени на базе облачного Delta Lake и конвейера распределенных приложений Apache Kafka, Spark Structured Streaming и…

Что не так с конвейером Apache Kafka и Spark Structured Streaming для потоковой аналитики больших данных в AWS: практический пример

Автор Категория ,
Что не так с конвейером Apache Kafka и Spark Structured Streaming для потоковой аналитики больших данных в AWS: практический пример

Чтобы дополнить наши курсы по Spark для разработчиков распределенных приложений и инженеров данных практическими примерами, сегодня рассмотрим кейс американской ИТ-компании ThousandEyes, которая разрабатывает программное обеспечение для анализа производительности локальных и…

Что такое Big Data Reconciliation: согласование больших данных c Apache Spark

Автор Категория , ,
Что такое Big Data Reconciliation: согласование больших данных c Apache Spark

Мы уже рассказывали, почему качество данных является важнейшим аспектом разработки и эксплуатации Big Data систем. Приемлемое для эффективного использования качество массивов информации достигается не только с помощью процессов подготовки датасета…

Безопасность + надежность: чем хорош транзакционный протокол фиксации Spark-заданий от Databricks

Автор Категория ,
Безопасность + надежность: чем хорош транзакционный протокол фиксации Spark-заданий от Databricks

Продолжая разговор про фиксацию заданий Apache Spark при работе с облачными хранилищами больших данных, сегодня подробнее рассмотрим, насколько эффективны commit-протоколы экосистемы Hadoop, предоставляемые по умолчанию, и почему известный разработчик Big…

Сложности перехода: от локальных Hadoop-кластеров к облачным объектным хранилищам для приложений Apache Spark

Автор Категория ,
Сложности перехода: от локальных Hadoop-кластеров к облачным объектным хранилищам для приложений Apache Spark

Сегодня поговорим про особенности транзакций в Apache Spark, что такое фиксация заданий в этом Big Data фреймворке, как она связано с протоколами экосистемы Hadoop и чем это ограничивает переход в…

Зачем вам Feature Store или что не так с микросервисами в ML-системах

Автор Категория , , , ,
Зачем вам Feature Store или что не так с микросервисами в ML-системах

Сегодня рассмотрим, когда микросервисные архитектуры не подходят для систем машинного обучения и какие технологии Big Data следует использовать в этом случае. В этой статье мы расскажем, что такое Feature Store,…

Как построить ML-pipeline на Qlik Replicate, Apache Kafka и других технологиях Big Data: архитектура real-time аналитики больших данных

Автор Категория , , ,
Как построить ML-pipeline на Qlik Replicate, Apache Kafka и других технологиях Big Data: архитектура real-time аналитики больших данных

Сегодня поговорим про ETL-процессы в мире Big Data на примере построения непрерывного конвейера поставки больших данных о транзакциях для сервисов машинного обучения. Читайте далее, из чего состоит типичная архитектура такой…