От пакетного до потокового озера данных с Apache Kafka: кейс компании Trainline

Автор Категория ,
От пакетного до потокового озера данных с Apache Kafka: кейс компании Trainline

Постоянно добавляя в наши курсы Apache Kafka для разработчиков интересные и практические примеры, сегодня мы разберем кейс тревел-площадки Trainline, которая агрегирует данные от 270 железнодорожных и автобусных компаний в 45…

Как вести мониторинг финансовых транзакций в реальном времени с Apache Kafka и Spark в Delta Lake: пример аналитики больших данных

Автор Категория , , ,
Как вести мониторинг финансовых транзакций в реальном времени с Apache Kafka и Spark в Delta Lake: пример аналитики больших данных

Сегодня рассмотрим пример построения системы аналитики больших данных для мониторинга финансовых транзакций в реальном времени на базе облачного Delta Lake и конвейера распределенных приложений Apache Kafka, Spark Structured Streaming и…

Что не так с конвейером Apache Kafka и Spark Structured Streaming для потоковой аналитики больших данных в AWS: практический пример

Автор Категория ,
Что не так с конвейером Apache Kafka и Spark Structured Streaming для потоковой аналитики больших данных в AWS: практический пример

Чтобы дополнить наши курсы по Spark для разработчиков распределенных приложений и инженеров данных практическими примерами, сегодня рассмотрим кейс американской ИТ-компании ThousandEyes, которая разрабатывает программное обеспечение для анализа производительности локальных и…

Что такое Big Data Reconciliation: согласование больших данных c Apache Spark

Автор Категория , ,
Что такое Big Data Reconciliation: согласование больших данных c Apache Spark

Мы уже рассказывали, почему качество данных является важнейшим аспектом разработки и эксплуатации Big Data систем. Приемлемое для эффективного использования качество массивов информации достигается не только с помощью процессов подготовки датасета…

Безопасность + надежность: чем хорош транзакционный протокол фиксации Spark-заданий от Databricks

Автор Категория ,
Безопасность + надежность: чем хорош транзакционный протокол фиксации Spark-заданий от Databricks

Продолжая разговор про фиксацию заданий Apache Spark при работе с облачными хранилищами больших данных, сегодня подробнее рассмотрим, насколько эффективны commit-протоколы экосистемы Hadoop, предоставляемые по умолчанию, и почему известный разработчик Big…

Сложности перехода: от локальных Hadoop-кластеров к облачным объектным хранилищам для приложений Apache Spark

Автор Категория ,
Сложности перехода: от локальных Hadoop-кластеров к облачным объектным хранилищам для приложений Apache Spark

Сегодня поговорим про особенности транзакций в Apache Spark, что такое фиксация заданий в этом Big Data фреймворке, как она связано с протоколами экосистемы Hadoop и чем это ограничивает переход в…

Зачем вам Feature Store или что не так с микросервисами в ML-системах

Автор Категория , , , ,
Зачем вам Feature Store или что не так с микросервисами в ML-системах

Сегодня рассмотрим, когда микросервисные архитектуры не подходят для систем машинного обучения и какие технологии Big Data следует использовать в этом случае. В этой статье мы расскажем, что такое Feature Store,…

Как построить ML-pipeline на Qlik Replicate, Apache Kafka и других технологиях Big Data: архитектура real-time аналитики больших данных

Автор Категория , , ,
Как построить ML-pipeline на Qlik Replicate, Apache Kafka и других технологиях Big Data: архитектура real-time аналитики больших данных

Сегодня поговорим про ETL-процессы в мире Big Data на примере построения непрерывного конвейера поставки больших данных о транзакциях для сервисов машинного обучения. Читайте далее, из чего состоит типичная архитектура такой…

DataOps и инженерия больших данных: 10 лучших практик от корпорации DNB

Автор Категория , , ,
DataOps и инженерия больших данных: 10 лучших практик от корпорации DNB

Чтобы добавить в наши курсы для дата-инженеров еще больше реальных примеров и лучших DataOps-практик, сегодня мы расскажем, как специалисты крупной норвежской компании DNB обеспечивают надежный доступ к чистым и точным…

Как создать свой коннектор Apache Spark: пример интеграции с Tableau

Автор Категория , ,
Как создать свой коннектор Apache Spark: пример интеграции с Tableau

Говоря про практическое обучение Apache Spark для дата-инженеров, сегодня рассмотрим особенности разработки собственного коннектора для этого фреймворка на примере его интеграции с BI-системой Tableau. Читайте далее, как конвертировать Spark RDD…