Интерактивная аналитика больших данных с Apache Spark SQL и Livy: кейс Pinterest

Автор Категория , ,
Интерактивная аналитика больших данных с Apache Spark SQL и Livy: кейс Pinterest

Сегодня в качестве полезного примера для обучения дата-инженеров и разработчиков Spark-приложений, разберем кейс компании Pinterest по интерактивной аналитике больших данных средствами SQL-модуля этого популярного фреймворка. Читайте далее, почему дата-инженеры решили…

Apache Iceberg для Data Lake: что это такое, зачем нужно и как работает

Автор Категория , ,
Apache Iceberg для Data Lake: что это такое, зачем нужно и как работает

В недавней статье про преимущества хранилища метаданных Apache Hive и другие плюсы этого популярного инструмента SQL-on-Hadoop, мы упоминали формат открытых таблиц Iceberg как альтернативу для хранения огромных наборов аналитических данных.…

Потоковая аналитика больших данных на Flink SQL и Redpanda вместо Apache Spark с Kafka

Автор Категория , , ,
Потоковая аналитика больших данных на Flink SQL и Redpanda вместо Apache Spark с Kafka

В продолжение недавней статьи для дата-инженеров про альтернативные платформы потоковой передачи событий вместо Apache Kafka, сегодня рассмотрим пример аналитики больших данных средствами Flink SQL, записи результатов в Elasticsearch и их…

Как повысить прозрачность Apache Spark: 3 способа мониторинга качества данных

Автор Категория ,
Как повысить прозрачность Apache Spark: 3 способа мониторинга качества данных

В рамках обучения разработчиков Spark-приложений, аналитиков данных и дата-инженеров, сегодня рассмотрим, как улучшить и визуализировать понимание обработки данных в этом Big Data фреймворке. Читайте далее про API встроенных механизмов наблюдения…

Сеансовые окна в Apache Spark Structured Streaming: кейсы, примеры и ограничения

Автор Категория ,
Сеансовые окна в Apache Spark Structured Streaming: кейсы, примеры и ограничения

Анализ данных в рамках пользовательский сеансов (сессий) – довольно востребованный кейс в Apache Spark, который не так просто реализовать из-за особенностей потоковой и пакетной обработки, а также эксплуатационных расходов. Сегодня…

Платформа аналитики больших данных Леруа Мерлен: потоковый CDC с Apache Kafka, NiFi, AirFlow и Flink в DWH на Greenplum

Автор Категория , , , , , ,
Платформа аналитики больших данных Леруа Мерлен: потоковый CDC с Apache Kafka, NiFi, AirFlow и Flink в DWH на Greenplum

Чтобы добавить в наши курсы для дата-инженеров по технологиям Apache Kafka, Spark, AirFlow, NiFi, Flink и Greenplum, еще больше практических примеров, сегодня разберем кейс ритейлера Леруа Мерлен. Читайте далее, как…

От локальных заданий Apache Spark SQL к Google BigQuery: опыт PayPal

Автор Категория ,
От локальных заданий Apache Spark SQL к Google BigQuery: опыт PayPal

В этой статье для дата-инженеров рассмотрим кейс компании PayPal, которая переводит свои аналитические рабочие нагрузки из локального кластера Apache Spark в Google Cloud Processing. Читайте далее, чем это решение оказалось…

Графовая аналитика больших данных с Apache Spark: GraphX и GraphFrames

Автор Категория ,
Графовая аналитика больших данных с Apache Spark: GraphX и GraphFrames

Продвигая наш новый курс по графовым алгоритмам на больших данных, сегодня рассмотрим, почему концепция графов сегодня так востребована в Big Data и Machine Learning. Вас ждет краткий ликбез по модулю…

Правила оптимизации в Spark SQL и их улучшения в Radiant

Автор Категория ,
Правила оптимизации в Spark SQL и их улучшения в Radiant

В этой статье для разработчиков Spark-приложений и дата-аналитиков рассмотрим новый оптимизатор этого фреймворка, Radiant. Он основан на SQL-оптимизаторе Catalyst и представляет собой open-source проект от энтузиастов сообщества Apache Spark. Читайте…

Еще пара примеров по Apache Hive и Spark: безопасный доступ и реализация SCD

Автор Категория , ,
Еще пара примеров по Apache Hive и Spark: безопасный доступ и реализация SCD

В этой статье для разработчиков распределенных приложений Apache Spark, администраторов SQL-on-Hadoop и дата-аналитиков рассмотрим особенности аутентификации удаленного пользователя, а также отслеживание измененных данных в таблицах Apache Hive. Читайте далее, зачем…