Найти и обезвредить Spill в Spark-приложениях: причины и решения

Автор Категория ,
Найти и обезвредить Spill в Spark-приложениях: причины и решения

В этой статье для разработчиков распределенных приложений разберем проблему с производительностью Apache Spark из-за неоптимальной стратегии переброса данных между оперативной и постоянной памятью. Что такое spill-эффект, почему он случается, как…

Apache NiFi 1.15.0: что нового в ноябрьском релизе 2021?

Автор Категория ,
Apache NiFi 1.15.0: что нового в ноябрьском релизе 2021?

7 ноября 2021 года вышел очередной релиз Apache NiFi с новыми фичами, улучшениями и исправлениями ошибок. Краткий обзор самых важных новинок: от постоянного хранилища для stateless-потоков и настроек облачных провайдеров…

Система обнаружения простоев онлайн-платежей на Apache Flink и Kafka: кейс Razorpay

Автор Категория , ,
Система обнаружения простоев онлайн-платежей на Apache Flink и Kafka: кейс Razorpay

Сегодня рассмотрим, как индийская ИТ-компания Razorpay с помощью Apache Flink и Kafka свела к минимуму время простоя своего главного продукта – платежного шлюза для интернет-магазинов. Как всего 2 задания Flink…

Greenplum с PXF и глубокое обучение в Apache MADlib для классификации изображений

Автор Категория , ,
Greenplum с PXF и глубокое обучение в Apache MADlib для классификации изображений

Недавно мы рассказывали про оптимизацию SQL-запросов в PXF – интеграционном фреймворке Greenplum. Сегодня рассмотрим, как этот способ обращения к внешним источникам данных можно применить к задачам машинного обучения на примере…

Как получить доступ к данным в AWS S3 из кластера Apache Hadoop через Hive и Spark

Автор Категория , ,
Как получить доступ к данным в AWS S3 из кластера Apache Hadoop через Hive и Spark

Чтобы сделать наши курсы по Apache Hadoop и компонентам этой экосистемы хранения и эффективной аналитики больших данных еще более полезными, сегодня рассмотрим, как получить данные из облачного объектного хранилища AWS…

Зачем вам KubeMQ: брокер сообщений для Kubernetes вместо Apache Kafka

Автор Категория ,
Зачем вам KubeMQ: брокер сообщений для Kubernetes вместо Apache Kafka

Мы уже писали о сложностях развертывания Apache Kafka на платформе управления контейнерами Kubernetes. Некоторые из этих проблем отлично решает KubeMQ – брокер очередей сообщений на Kubernetes. Зачем нужна очередная служба…

Все сложно: Morpheus, Cypher и Apache Spark GraphX

Автор Категория ,
Все сложно: Morpheus, Cypher и Apache Spark GraphX

В рамках нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим, как язык запросов Cypher должен был появиться в Apache Spark 3.0, зачем это нужно и почему до сих пор…

Польза умных сенсоров Apache Airflow: Smart Sensor для LRLW-задач

Автор Категория , ,
Польза умных сенсоров Apache Airflow: Smart Sensor для LRLW-задач

Добавляя в наши курсы для дата-инженеров еще больше полезных примеров, сегодня рассмотрим, как Airbnb развивает Apache AirFlow и на практике используют эту платформу для создания, планирования и мониторинга конвейеров данных.…

Контейнеризация Apache NiFi: безопасность конвейеров и потоков данных с Docker и Kubernetes

Автор Категория ,
Контейнеризация Apache NiFi: безопасность конвейеров и потоков данных с Docker и Kubernetes

Сегодня рассмотрим, как организовать полностью сохраняемый сервис Apache NiFi с помощью Docker, чтобы обеспечить безопасность конвейеров и потоков данных при изменении конфигураций и перезапуске служб. А также разберем, как дата-инженеру…

Инкрементное резервное копирование таблиц HBase и аварийное восстановление с AWS S3

Автор Категория ,
Инкрементное резервное копирование таблиц HBase и аварийное восстановление с AWS S3

В статье для дата-инженеров и администраторов Apache Hadoop разберем, как реализовать инкрементное резервное копирование таблиц HBase из кластеров CDH/CDP в облачное объектное хранилище AWS S3. Практический пример от международной ИТ-компании…