Не только Apache Kafka и Spark Streaming: 3 платформы потоковой аналитики больших данных

Автор Категория , , ,
Не только Apache Kafka и Spark Streaming: 3 платформы потоковой аналитики больших данных

Продолжая недавний разговор про потоковую передачу событий и соответствующие Big Data инструменты, сегодня рассмотрим не отдельные фреймворки обработки данных в режиме реального времени, а комплексные платформы, которые объединяют сразу несколько…

5 главных плюсов облачного развертывания VMware Tanzu Greenplum

Автор Категория ,
5 главных плюсов облачного развертывания VMware Tanzu Greenplum

Продвигая наши курсы по Greenplum и Arenadata DB, сегодня рассмотрим, что представляет собой облачная платформа VMware Tanzu Greenplum, где ее можно развернуть и каковы преимущества cloud-решения по сравнению с локальной…

Интерактивная аналитика больших данных с Apache Spark SQL и Livy: кейс Pinterest

Автор Категория , ,
Интерактивная аналитика больших данных с Apache Spark SQL и Livy: кейс Pinterest

Сегодня в качестве полезного примера для обучения дата-инженеров и разработчиков Spark-приложений, разберем кейс компании Pinterest по интерактивной аналитике больших данных средствами SQL-модуля этого популярного фреймворка. Читайте далее, почему дата-инженеры решили…

Apache Iceberg для Data Lake: что это такое, зачем нужно и как работает

Автор Категория , ,
Apache Iceberg для Data Lake: что это такое, зачем нужно и как работает

В недавней статье про преимущества хранилища метаданных Apache Hive и другие плюсы этого популярного инструмента SQL-on-Hadoop, мы упоминали формат открытых таблиц Iceberg как альтернативу для хранения огромных наборов аналитических данных.…

Потоковая аналитика больших данных на Flink SQL и Redpanda вместо Apache Spark с Kafka

Автор Категория , , ,
Потоковая аналитика больших данных на Flink SQL и Redpanda вместо Apache Spark с Kafka

В продолжение недавней статьи для дата-инженеров про альтернативные платформы потоковой передачи событий вместо Apache Kafka, сегодня рассмотрим пример аналитики больших данных средствами Flink SQL, записи результатов в Elasticsearch и их…

Как повысить прозрачность Apache Spark: 3 способа мониторинга качества данных

Автор Категория ,
Как повысить прозрачность Apache Spark: 3 способа мониторинга качества данных

В рамках обучения разработчиков Spark-приложений, аналитиков данных и дата-инженеров, сегодня рассмотрим, как улучшить и визуализировать понимание обработки данных в этом Big Data фреймворке. Читайте далее про API встроенных механизмов наблюдения…

Сеансовые окна в Apache Spark Structured Streaming: кейсы, примеры и ограничения

Автор Категория ,
Сеансовые окна в Apache Spark Structured Streaming: кейсы, примеры и ограничения

Анализ данных в рамках пользовательский сеансов (сессий) – довольно востребованный кейс в Apache Spark, который не так просто реализовать из-за особенностей потоковой и пакетной обработки, а также эксплуатационных расходов. Сегодня…

Платформа аналитики больших данных Леруа Мерлен: потоковый CDC с Apache Kafka, NiFi, AirFlow и Flink в DWH на Greenplum

Автор Категория , , , , , ,
Платформа аналитики больших данных Леруа Мерлен: потоковый CDC с Apache Kafka, NiFi, AirFlow и Flink в DWH на Greenplum

Чтобы добавить в наши курсы для дата-инженеров по технологиям Apache Kafka, Spark, AirFlow, NiFi, Flink и Greenplum, еще больше практических примеров, сегодня разберем кейс ритейлера Леруа Мерлен. Читайте далее, как…

От локальных заданий Apache Spark SQL к Google BigQuery: опыт PayPal

Автор Категория ,
От локальных заданий Apache Spark SQL к Google BigQuery: опыт PayPal

В этой статье для дата-инженеров рассмотрим кейс компании PayPal, которая переводит свои аналитические рабочие нагрузки из локального кластера Apache Spark в Google Cloud Processing. Читайте далее, чем это решение оказалось…

Apache Flink для пакетной и потоковой обработки Big Data в больших компаниях: примеры Pinterest и Alibaba Group

Автор Категория ,
Apache Flink для пакетной и потоковой обработки Big Data в больших компаниях: примеры Pinterest и Alibaba Group

Сегодня рассмотрим пару кейсов по использованию Apache Flink в качестве основного фреймворка пакетной и потоковой аналитики больших данных. Читайте далее, как фото-хостинг Pinterest построил вокруг Flink собственную инфраструктуру работы с…