Tez vs Spark: что выбрать для Apache Hive

Автор Категория , ,
Tez vs Spark: что выбрать для Apache Hive

Вчера мы упоминали, что использование Spark или Tez в качестве движка исполнения SQL-запросов в Apache Hive вместо классического Hadoop MapReduce намного ускоряет аналитику больших данных. Сегодня рассмотрим подробнее, чем отличаются…

Как ускорить SQL-запросы в Apache Hive: ТОП-5 методов оптимизации

Автор Категория ,
Как ускорить SQL-запросы в Apache Hive: ТОП-5 методов оптимизации

Apache Hive – востребованный инструмент класса SQL-on-Hadoop, который также активно используется в работе с фреймворком Spark. Поэтому сегодня разберем важную тему из обучения дата-инженеров и аналитиков больших данных про оптимизацию…

Почему stateful-приложения Apache Flink падают в AWS: RocksDB и IOPS облачных SSD

Автор Категория , ,
Почему stateful-приложения Apache Flink падают в AWS: RocksDB и IOPS облачных SSD

Продолжая разбирать особенности разработки потоковых приложений Apache Flink, сегодня рассмотрим проблему падения пропускной способности задания из-за встроенного хранилища состояний RocksDB и ее зависимость от производительности дисков. Вас ждет настоящая детективная…

Что посмотреть в Apache Spark UI: 5 полезных кейсов для разработчика Big Data

Автор Категория ,
Что посмотреть в Apache Spark UI: 5 полезных кейсов для разработчика Big Data

В этой статье по обучению Apache Spark рассмотрим, чем графический веб-интерфейс этого фреймворка полезен разработчику распределенных приложений. Читайте далее, где посмотреть кэшированные данные, визуализацию DAG, переменные среды, исполняемые SQL-запросы, а…

RocksDB как хранилище состояний для stateful-приложений Apache Flink

Автор Категория ,
RocksDB как хранилище состояний для stateful-приложений Apache Flink

Мы уже рассказывали, что приложения Kafka Streams используют RocksDB в качестве хранилища состояний. Сегодня рассмотрим, как это key-value NoSQL-СУБД используется для разработки stateful-приложений Apache Flink. Читайте далее о преимуществах и…

Кейс потоковой аналитики больших данных с Apache Kafka, Spark (Flink) и BI-системами

Автор Категория , , , , , ,
Кейс потоковой аналитики больших данных с Apache Kafka, Spark (Flink) и BI-системами

Сегодня рассмотрим пример построения системы потоковой аналитики больших данных на базе Apache Kafka, Spark, Flink, NoSQL-СУБД, BI-системой Tableau или визуализацией в Kibana. Читайте далее, кому и зачем исследовать Twitter-посты в…

От пакетов к потокам с Kafka и Flink: аналитика больших данных по пользовательским сеансам в Spotify

Автор Категория , , ,
От пакетов к потокам с Kafka и Flink: аналитика больших данных по пользовательским сеансам в Spotify

Сегодня рассмотрим преимущества потоковой обработки данных с Apache Kafka и Flink над пакетными Big Data технологиями в виде Hadoop, Spark и Oozie. В качестве примера разберем реальный кейс аналитики больших…

Зачем нужны коммитеры S3A: решаем проблемы совместимости Amazon S3 с Hadoop HDFS

Автор Категория , ,
Зачем нужны коммитеры S3A: решаем проблемы совместимости Amazon S3 с Hadoop HDFS

В поддержку курса Hadoop для инженеров данных сегодня разберем, в чем проблема безопасной отправки заданий и файлов в облачное хранилище Amazon S3 и как ее решить. Читайте далее, почему AWS…

Оптимизация Apache Spark на Kubernetes: 4 способа ускорить контейнеризованные приложения

Автор Категория ,
Оптимизация Apache Spark на Kubernetes: 4 способа ускорить контейнеризованные приложения

Недавно мы рассказывали об особенностях запуска приложений Apache Spark в кластере Kubernetes с учетом новшеств релиза 3.1.1, где с этого варианта развертывания снят экспериментальный режим. В дополнение к ранее рассмотренным…

Возвращение к истокам: когда версия сообщества предпочтительнее коммерческого продукта – кейс миграции Apache Hadoop

Автор Категория ,
Возвращение к истокам: когда версия сообщества предпочтительнее коммерческого продукта – кейс миграции Apache Hadoop

Сегодня рассмотрим особенности ухода с коммерческого дистрибутива Hadoop к версии сообщества на примере американской рекламной платформы Outbrain. Читайте далее, зачем дата-инженеры компании приняли такое решение, почему им не подошли альтернативы…