Зачем нужны коммитеры S3A: решаем проблемы совместимости Amazon S3 с Hadoop HDFS

Автор Категория , ,
Зачем нужны коммитеры S3A: решаем проблемы совместимости Amazon S3 с Hadoop HDFS

В поддержку курса Hadoop для инженеров данных сегодня разберем, в чем проблема безопасной отправки заданий и файлов в облачное хранилище Amazon S3 и как ее решить. Читайте далее, почему AWS…

Apache Hadoop 3.2.2 - свежий релиз 2021: краткий обзор главной технологии Big Data

Автор Категория ,
Apache Hadoop 3.2.2 - свежий релиз 2021: краткий обзор главной технологии Big Data

Месяц назад, в начале января 2021 года вышел новый релиз Apache Hadoop 3.2.2. Читайте далее, чего ждать от самой главной технологии Big Data, какие ошибки исправлены, зачем внесены изменения и…

Что не так с real-time обработкой транзакций в конвейере Apache Kafka-Spark Streaming: 3 проблемы и способы их решения

Автор Категория , , ,
Что не так с real-time обработкой транзакций в конвейере Apache Kafka-Spark Streaming: 3 проблемы и способы их решения

В этой статье рассмотрим особенности совместного использования Apache Kafka и Spark Streaming для обработки финансовых транзакций в режиме онлайн. Читайте далее про типовые кейсы практического применения конвейера аналитики больших данных…

Безопасность + надежность: чем хорош транзакционный протокол фиксации Spark-заданий от Databricks

Автор Категория ,
Безопасность + надежность: чем хорош транзакционный протокол фиксации Spark-заданий от Databricks

Продолжая разговор про фиксацию заданий Apache Spark при работе с облачными хранилищами больших данных, сегодня подробнее рассмотрим, насколько эффективны commit-протоколы экосистемы Hadoop, предоставляемые по умолчанию, и почему известный разработчик Big…

Сложности перехода: от локальных Hadoop-кластеров к облачным объектным хранилищам для приложений Apache Spark

Автор Категория ,
Сложности перехода: от локальных Hadoop-кластеров к облачным объектным хранилищам для приложений Apache Spark

Сегодня поговорим про особенности транзакций в Apache Spark, что такое фиксация заданий в этом Big Data фреймворке, как она связано с протоколами экосистемы Hadoop и чем это ограничивает переход в…

Ускоряем и масштабируем Apache Spark Structured Streaming: 2 проблемы строго однократной доставки и их решения

Автор Категория , ,
Ускоряем и масштабируем Apache Spark Structured Streaming: 2 проблемы строго однократной доставки и их решения

Вчера мы говорили про реализацию exactly once семантики доставки сообщений в Apache Spark Structured Streaming. Сегодня рассмотрим, что не так с размером компактных файлов для хранения контрольных точек потоковой передачи,…

Только сегодня и только сейчас: как устроена строго однократная доставка сообщений в Apache Spark Structured Streaming

Автор Категория ,
Только сегодня и только сейчас: как устроена строго однократная доставка сообщений в Apache Spark Structured Streaming

Недавно мы рассматривали оптимизацию SQL-запросов и выполнение JOIN-операций в Apache Spark. Сегодня поговорим, что обеспечивает строго однократную семантику доставку сообщений (exactly once) в этом Big Data фреймворке и как на…

Что такое Graceful shutdown в Spark Streaming: основы Big Data для начинающих

Автор Категория , , ,
Что такое Graceful shutdown в Spark Streaming: основы Big Data для начинающих

Продолжая разбирать, как работает аналитика больших данных на практических примерах, сегодня мы рассмотрим, что такое Graceful shutdown в Apache Spark Streaming. Читайте далее, как устроен этот механизм «плавного» завершения Спарк-заданий…

5 этапов продуктивной миграции в облачный Hadoop на базе Google Dataproc

Автор Категория , , , ,
5 этапов продуктивной миграции в облачный Hadoop на базе Google Dataproc

Сегодня поговорим про особенности перехода с локального Hadoop-кластера в облачное SaaS-решение от Google – платформу Dataproc. Читайте далее, какие 5 шагов нужно сделать, чтобы быстро развернуть и эффективно использовать облачную…

От HDFS в облака: разбираем Google Cloud Storage Connector for Hadoop

Автор Категория , ,
От HDFS в облака: разбираем Google Cloud Storage Connector for Hadoop

Говоря про перспективы развития экосистемы Apache Hadoop с учетом современного тренда на SaaS-подход к работе с большими данными (Big Data), сегодня мы рассмотрим, как работает коннектор облачного хранилища Google для…