Доступ к пользовательским JAR из Spark-заданий на AWS EMR

Автор Категория ,
Доступ к пользовательским JAR из Spark-заданий на AWS EMR

В рамках обучения разработчиков распределенных Spark-приложений, сегодня рассмотрим, как добавить функции из пользовательских JAR-файлов в кластер AWS EMR. Достоинства и недостатки действия начальной загрузки EMR с переопределением конфигурации Spark, а…

Apache Spark и AWS S3: лучшие практики и опыт Pinterest

Автор Категория ,
Apache Spark и AWS S3: лучшие практики и опыт Pinterest

В этой статье для разработчиков Spark-приложений и дата-инженеров рассмотрим особенности взаимодействия с облачным объектным хранилищем больших данных AWS S3. Как повысить эффективность и ускорить выполнения Spark-заданий на чтение данных из…

Сложности перехода: миграция из Apache HBase в Google BigTable – кейс компании Box

Автор Категория ,
Сложности перехода: миграция из Apache HBase в Google BigTable – кейс компании Box

Недавно мы писали про пользу snapshot’ов Apache HBase на примере компании Vimeo. Сегодня рассмотрим кейс корпорации Box, которая специализируется на облачных enterprise-продуктах совместного управления контентом и файлами. Переход от локальной…

Как сократить стоимость и время обработки данных в Spark-приложений: кейс AppsFlyer

Автор Категория ,
Как сократить стоимость и время обработки данных в Spark-приложений: кейс AppsFlyer

Сегодня рассмотрим кейс международной ИТ-компании AppsFlyer, которая создает SaaS-решения для маркетинговой аналитики в режиме онлайн. В этой статье команда разработки аналитического продукта Data Locker делится опытом оптимизации ETL-приложений Apache Spark…

Apache NiFi 1.15.0: что нового в ноябрьском релизе 2021?

Автор Категория ,
Apache NiFi 1.15.0: что нового в ноябрьском релизе 2021?

7 ноября 2021 года вышел очередной релиз Apache NiFi с новыми фичами, улучшениями и исправлениями ошибок. Краткий обзор самых важных новинок: от постоянного хранилища для stateless-потоков и настроек облачных провайдеров…

Как получить доступ к данным в AWS S3 из кластера Apache Hadoop через Hive и Spark

Автор Категория , ,
Как получить доступ к данным в AWS S3 из кластера Apache Hadoop через Hive и Spark

Чтобы сделать наши курсы по Apache Hadoop и компонентам этой экосистемы хранения и эффективной аналитики больших данных еще более полезными, сегодня рассмотрим, как получить данные из облачного объектного хранилища AWS…

Инкрементное резервное копирование таблиц HBase и аварийное восстановление с AWS S3

Автор Категория ,
Инкрементное резервное копирование таблиц HBase и аварийное восстановление с AWS S3

В статье для дата-инженеров и администраторов Apache Hadoop разберем, как реализовать инкрементное резервное копирование таблиц HBase из кластеров CDH/CDP в облачное объектное хранилище AWS S3. Практический пример от международной ИТ-компании…

Один на всех: реализация единого API для унифицированной аналитики больших данных c Apache Flink и Kafka в Pinterest

Автор Категория , , ,
Один на всех: реализация единого API для унифицированной аналитики больших данных c Apache Flink и Kafka в Pinterest

Недавно мы писали, что в новой версии Apache Flink 1.14, которая вышла в конце сентября 2021 года, сделаны попытки объединения потоковой и пакетной парадигм обработки данных. Сегодня рассмотрим, как подобное…

Потоковая аналитика больших данных в Udemy: система отслеживания событий на Apache Hive и Kafka в AWS

Автор Категория , ,
Потоковая аналитика больших данных в Udemy: система отслеживания событий на Apache Hive и Kafka в AWS

Сегодня разберем кейс платформы онлайн-обучения Udemy по разработке собственной системы потоковой аналитики больших данных о событиях пользовательского поведения на Apache Kafka, Hive и сервисах Amazon. Про требования к инфраструктуре отслеживания…

От Cassandra к Google Cloud Spanner: опыт Uber

Автор Категория ,
От Cassandra к Google Cloud Spanner: опыт Uber

Сегодня рассмотрим, как Uber эффективно обрабатывает миллионы запросов на поездки c помощью технологий надежного хранения и быстрой аналитики больших данных. Вас ждет краткий ликбез по системе геопространственной индексации H3 и…