Как упростить работу с DWH и Data Lake: DBT + Apache Spark в AWS

Автор Категория , ,
Как упростить работу с DWH и Data Lake: DBT + Apache Spark в AWS

Сегодня рассмотрим, что такое Data Build Tool, как этот ETL-инструмент связан с корпоративным хранилищем и озером данных, а также чем полезен дата-инженеру. В качестве практического примера разберем кейс подключения DBT…

От контекста до драйвера: что под капотом Spark-приложения

Автор Категория ,
От контекста до драйвера: что под капотом Spark-приложения

Поскольку наши курсы по Apache Spark предполагают практическое обучение с глубоким погружением в особенности разработки и настройки распределенных приложений, сегодня рассмотрим, как именно выполняются кластерные вычисления в рамках этого Big…

Зачем нужны коммитеры S3A: решаем проблемы совместимости Amazon S3 с Hadoop HDFS

Автор Категория , ,
Зачем нужны коммитеры S3A: решаем проблемы совместимости Amazon S3 с Hadoop HDFS

В поддержку курса Hadoop для инженеров данных сегодня разберем, в чем проблема безопасной отправки заданий и файлов в облачное хранилище Amazon S3 и как ее решить. Читайте далее, почему AWS…

Как Spark-приложению выполнять миллионы операций в секунду с данными в AWS S3

Автор Категория , ,
Как Spark-приложению выполнять миллионы операций в секунду с данными в AWS S3

Чтобы сделать курсы Hadoop и Spark для инженеров данных еще более интересными, сегодня мы рассмотрим кейс фудтех-компании iFood – лидера рынка доставки еды в странах Латинской Америки. Читайте далее, в…

Как сэкономить на AWS со Spark и Kubernetes: спотовые узлы и готовые платформы

Автор Категория , ,
Как сэкономить на AWS со Spark и Kubernetes: спотовые узлы и готовые платформы

Продолжая разговор про оптимизацию приложений Apache Spark в Kubernetes, сегодня разберем, как сократить расходы на облачный кластер с помощью спотовых узлов. А в качестве практического примера рассмотрим кейс компании Weather2020,…

Оптимизация Apache Spark на Kubernetes: 4 способа ускорить контейнеризованные приложения

Автор Категория ,
Оптимизация Apache Spark на Kubernetes: 4 способа ускорить контейнеризованные приложения

Недавно мы рассказывали об особенностях запуска приложений Apache Spark в кластере Kubernetes с учетом новшеств релиза 3.1.1, где с этого варианта развертывания снят экспериментальный режим. В дополнение к ранее рассмотренным…

7 функций общей доступности Kubernetes в Apache Spark 3.1.1: мартовский релиз 2021

Автор Категория ,
7 функций общей доступности Kubernetes в Apache Spark 3.1.1: мартовский релиз 2021

Вчера мы упоминали, что с марта 2021 года в версии Apache Spark 3.1.1 с развертывания на Kubernetes снят экспериментальный режим, внесено множество улучшений для стабильной работы контейниризованных приложений и добавлены…

3 достоинства и пара недостатков Apache Spark на Kubernetes

Автор Категория ,
3 достоинства и пара недостатков Apache Spark на Kubernetes

С учетом тренда на контейнеризацию при разработке и развертывании любых технологий, в т.ч. Big Data, сегодня рассмотрим плюсы и минусы совместного использования Apache Spark с Kubernetes. Читайте далее, как отправить…

5 советов по совместному использованию Apache Spark и PostgreSQL

Автор Категория ,
5 советов по совместному использованию Apache Spark и PostgreSQL

В этой статье по обучению дата-инженеров и разработчиков Big Data рассмотрим, как эффективно записать большие данные в СУБД PostgreSQL с применением Apache Spark. Читайте далее, чем отличается foreach() от foreachBatch(),…

Февральская новинка-2021: Apache Spark премиум-класса в Delta Lake Databricks на Google Cloud

Автор Категория ,
Февральская новинка-2021: Apache Spark премиум-класса в Delta Lake Databricks на Google Cloud

Продолжая вчерашний разговор про Delta Lake на базе Apache Spark от Databricks, сегодня мы расскажем одну из последних новостей о запуске этого решения на Google Cloud с середины февраля 2021…