Как рассчитать конверсию контекстной рекламы с помощью Apache Flink SQL: практический пример

Автор Категория , ,
Как рассчитать конверсию контекстной рекламы с помощью Apache Flink SQL: практический пример

Реклама является одним из наиболее крупных сегментов практического применения технологий Big Data. Поэтому сегодня рассмотрим, как Flink SQL реализует потоковую аналитику больших данных в AdTech-кейсах. Разбираем пример JOIN-соединения двух потоков…

Еще пара примеров по Apache Hive и Spark: безопасный доступ и реализация SCD

Автор Категория , ,
Еще пара примеров по Apache Hive и Spark: безопасный доступ и реализация SCD

В этой статье для разработчиков распределенных приложений Apache Spark, администраторов SQL-on-Hadoop и дата-аналитиков рассмотрим особенности аутентификации удаленного пользователя, а также отслеживание измененных данных в таблицах Apache Hive. Читайте далее, зачем…

Как сохранить датафрейм вне кучи: секреты Apache Spark для разработчиков

Автор Категория ,
Как сохранить датафрейм вне кучи: секреты Apache Spark для разработчиков

В рамках обучения разработчиков Spark-приложений, сегодня рассмотрим, как сохранить датафрейм в памяти вне кучи исполнителя и зачем это нужно. Вас ждет краткий ликбез по управлению памятью в Apache Spark с…

От JDBC-подключения до SQL-запросов: пара примеров по Apache Hive, HBase и Spark

Автор Категория ,
От JDBC-подключения до SQL-запросов: пара примеров по Apache Hive, HBase и Spark

В рамках курсов по Apache Hadoop для дата-аналитиков и инженеров данных сегодня рассмотрим пару практических примеров работы с популярным SQL-on-Hadoop инструментом этой экосистемы. Читайте далее, как настроить соединение удаленного сервера…

Аналитика больших данных: цифровая трансформация Renault с Apache Spark и сервисами Google

Автор Категория , ,
Аналитика больших данных: цифровая трансформация Renault с Apache Spark и сервисами Google

Сегодня разберем кейс компании Renault по масштабированию своей цифровой платформы и снижению затрат с помощью BigQuery и Apache Spark на Google Dataproc. Цифровизация в автомобильной промышленности: конвейер сбора и аналитики…

Еще 4 полезных совета по Apache Spark для разработчиков и дата-аналитиков

Автор Категория ,
Еще 4 полезных совета по Apache Spark для разработчиков и дата-аналитиков

Сегодня в рамках обучения дата-аналитиков и разработчиков Spark-приложений, рассмотрим еще несколько особенностей этого фреймворка. Почему count() работает по-разному для RDD и DataFrame, как отличается уровень хранения при применении метода cache()…

Как создать микросервисный ML-конвейер в реальном времени на Apache Kafka и Spark

Автор Категория , , ,
Как создать микросервисный ML-конвейер в реальном времени на Apache Kafka и Spark

Чтобы дополнить наши курсы по Kafka и Spark интересными примерами, сегодня рассмотрим практический кейс разработки микросервисного конвейера машинного обучения на этих фреймворках. Читайте далее, зачем выносить ML-компонент в отдельное Python-приложение…

Зачем Apache Hive внешняя база данных для MetaStore: смотрим на примере Arenadata Hadoop 2.1.4 со Spark 3

Автор Категория , ,
Зачем Apache Hive внешняя база данных для MetaStore: смотрим на примере Arenadata Hadoop 2.1.4 со Spark 3

В июле 2021 года «Аренадата Софтвер», российская ИТ-компания разработчик отечественных решений для хранения и аналитики больших данных, представила минорный релиз корпоративного дистрибутива на базе Apache Hadoop — Arenadata Hadoop 2.1.4.…

Непредсказуемость Apache Spark SQL и как от нее избавиться: про UDF и Catalyst

Автор Категория ,
Непредсказуемость Apache Spark SQL и как от нее избавиться: про UDF и Catalyst

Сегодня в рамках обучения разработчиков Apache Spark и дата-аналитиков, поговорим про детерминированность UDF-функций и особенности их обработки оптимизатором SQL-запросов Catalyst. На практических примерах рассмотрим, как оптимизатор Spark SQL обрабатывает недетерминированные…

5 вопросов про масштабирование Spark-приложений

Автор Категория ,
5 вопросов про масштабирование Spark-приложений

Чтобы добавить в наши курсы по Spark еще больше практических кейсов, сегодня ответим на самые частые вопросы относительно масштабирования распределенных приложений, написанных с помощью этого фреймворка. Читайте далее о пользе…