Динамическое сжатие файлов в Apache Spark: опыт Databricks и не только

Автор Категория ,
Динамическое сжатие файлов в Apache Spark: опыт Databricks и не только

При том, что Apache Spark является одной из главных технологий стека Big Data, этот фреймворк не очень хорошо работает с множеством файлов небольшого размера. Поэтому в рамках обучения дата-инженеров и…

Февральская новинка-2021: Apache Spark премиум-класса в Delta Lake Databricks на Google Cloud

Автор Категория ,
Февральская новинка-2021: Apache Spark премиум-класса в Delta Lake Databricks на Google Cloud

Продолжая вчерашний разговор про Delta Lake на базе Apache Spark от Databricks, сегодня мы расскажем одну из последних новостей о запуске этого решения на Google Cloud с середины февраля 2021…

Как вести мониторинг финансовых транзакций в реальном времени с Apache Kafka и Spark в Delta Lake: пример аналитики больших данных

Автор Категория , , ,
Как вести мониторинг финансовых транзакций в реальном времени с Apache Kafka и Spark в Delta Lake: пример аналитики больших данных

Сегодня рассмотрим пример построения системы аналитики больших данных для мониторинга финансовых транзакций в реальном времени на базе облачного Delta Lake и конвейера распределенных приложений Apache Kafka, Spark Structured Streaming и…

Быстрая OLAP-аналитика больших данных в Delta Lake c Apache Spark SQL и Presto

Автор Категория , , ,
Быстрая OLAP-аналитика больших данных в Delta Lake c Apache Spark SQL и Presto

В этой статье рассмотрим, как сделать SQL-запросы к колоночному хранилищу больших данных с поддержкой ACID-транзакций Delta Lake еще быстрее с помощью Apache Presto. Читайте далее про синергию совместного использования Apache…

Безопасность + надежность: чем хорош транзакционный протокол фиксации Spark-заданий от Databricks

Автор Категория ,
Безопасность + надежность: чем хорош транзакционный протокол фиксации Spark-заданий от Databricks

Продолжая разговор про фиксацию заданий Apache Spark при работе с облачными хранилищами больших данных, сегодня подробнее рассмотрим, насколько эффективны commit-протоколы экосистемы Hadoop, предоставляемые по умолчанию, и почему известный разработчик Big…

Сложности перехода: от локальных Hadoop-кластеров к облачным объектным хранилищам для приложений Apache Spark

Автор Категория ,
Сложности перехода: от локальных Hadoop-кластеров к облачным объектным хранилищам для приложений Apache Spark

Сегодня поговорим про особенности транзакций в Apache Spark, что такое фиксация заданий в этом Big Data фреймворке, как она связано с протоколами экосистемы Hadoop и чем это ограничивает переход в…

DataOps и инженерия больших данных: 10 лучших практик от корпорации DNB

Автор Категория , , ,
DataOps и инженерия больших данных: 10 лучших практик от корпорации DNB

Чтобы добавить в наши курсы для дата-инженеров еще больше реальных примеров и лучших DataOps-практик, сегодня мы расскажем, как специалисты крупной норвежской компании DNB обеспечивают надежный доступ к чистым и точным…

5 этапов продуктивной миграции в облачный Hadoop на базе Google Dataproc

Автор Категория , , , ,
5 этапов продуктивной миграции в облачный Hadoop на базе Google Dataproc

Сегодня поговорим про особенности перехода с локального Hadoop-кластера в облачное SaaS-решение от Google – платформу Dataproc. Читайте далее, какие 5 шагов нужно сделать, чтобы быстро развернуть и эффективно использовать облачную…

Как построить ETL-pipeline на Apache Spark или что под капотом StreamSets Transformer

Автор Категория , ,
Как построить ETL-pipeline на Apache Spark или что под капотом StreamSets Transformer

Однажды мы уже рассказывали про StreamSets Data Collector, сравнивая его с Apache NiFi. Сегодня рассмотрим, как устроен этот исполнительный движок для запуска конвейеров обработки больших данных, каким образом он связан…

Заменит ли Apache Kafka прочие СУБД в мире Big Data: за и против

Автор Категория ,
Заменит ли Apache Kafka прочие СУБД в мире Big Data: за и против

В этой статье мы поговорим про возможность нехарактерного использования Apache Kafka: не как распределенной стримминговой платформы или брокера сообщений, а в виде базы данных. Читайте далее, как Apache Kafka дополняет…