Планируем и запускаем дата-конвейеры с Apache AirFlow и Dagster

Автор Категория ,
Планируем и запускаем дата-конвейеры с Apache AirFlow и Dagster

Продолжая сравнивать Apache AirFlow с Dagster, сегодня рассмотрим особенности развертывания и эксплуатации этих оркестраторов ETL-процессов и конвейеров обработки данных. Читайте далее о плюсах изоляции процессов, отделения системных служб от пользовательского…

3 оператора Apache Airflow для контейнерных конвейеров данных

Автор Категория ,
3 оператора Apache Airflow для контейнерных конвейеров данных

Совмещение Airflow с Kubernetes уже становится стандартом де-факто для дата-инженеров. Недавно мы рассказывали про 3 популярные среды развертывания и сопровождения этого ETL-фреймворка в Kubernetes. Продолжая эту тему, сегодня рассмотрим, какие…

Где развернуть Apache AirFlow: 3 инфраструктуры для дата-инженера

Автор Категория ,
Где развернуть Apache AirFlow: 3 инфраструктуры для дата-инженера

Для практического использования Apache Airflow в production дата-инженеру необходимо не только обучение основам работы с этим фреймворком, но и знания о базовой инфраструктуре его развертывания. Поэтому сегодня поговорим о 3-х…

Как сэкономить на AWS со Spark и Kubernetes: спотовые узлы и готовые платформы

Автор Категория , ,
Как сэкономить на AWS со Spark и Kubernetes: спотовые узлы и готовые платформы

Продолжая разговор про оптимизацию приложений Apache Spark в Kubernetes, сегодня разберем, как сократить расходы на облачный кластер с помощью спотовых узлов. А в качестве практического примера рассмотрим кейс компании Weather2020,…

Оптимизация Apache Spark на Kubernetes: 4 способа ускорить контейнеризованные приложения

Автор Категория ,
Оптимизация Apache Spark на Kubernetes: 4 способа ускорить контейнеризованные приложения

Недавно мы рассказывали об особенностях запуска приложений Apache Spark в кластере Kubernetes с учетом новшеств релиза 3.1.1, где с этого варианта развертывания снят экспериментальный режим. В дополнение к ранее рассмотренным…

7 функций общей доступности Kubernetes в Apache Spark 3.1.1: мартовский релиз 2021

Автор Категория ,
7 функций общей доступности Kubernetes в Apache Spark 3.1.1: мартовский релиз 2021

Вчера мы упоминали, что с марта 2021 года в версии Apache Spark 3.1.1 с развертывания на Kubernetes снят экспериментальный режим, внесено множество улучшений для стабильной работы контейниризованных приложений и добавлены…

3 достоинства и пара недостатков Apache Spark на Kubernetes

Автор Категория ,
3 достоинства и пара недостатков Apache Spark на Kubernetes

С учетом тренда на контейнеризацию при разработке и развертывании любых технологий, в т.ч. Big Data, сегодня рассмотрим плюсы и минусы совместного использования Apache Spark с Kubernetes. Читайте далее, как отправить…

Потоковая аналитика больших данных с ksqlDB на Kubernetes: практический пример

Автор Категория , ,
Потоковая аналитика больших данных с ksqlDB на Kubernetes: практический пример

В этой статье поговорим про KSQL на примере кейса компании американской компании Pluralsight, которая предлагает различные обучающие видео-курсы для разработчиков ПО, ИТ-администраторов и творческих профессионалов. Читайте далее, как использовать Apache…

Насколько ты знаком с Apache AirFlow: открытый тест для инженеров Big Data

Автор Категория ,
Насколько ты знаком с Apache AirFlow: открытый тест для инженеров Big Data

Хорошие курсы дата-инженеров предполагают не только изучение теории и практики, но и проверку полученных знаний. Поэтому сегодня мы предлагаем вам открытый интерактивный тест по Apache AirFlow. Ответьте на 10 простых…

Как протестировать Big Data Pipeline: тесты для Hadoop-конвейеров в Spark и Airflow

Автор Категория , ,
Как протестировать Big Data Pipeline: тесты для Hadoop-конвейеров в Spark и Airflow

Поскольку курсы инженеров Big Data предполагают практическое обучение на реальных кейсах, сегодня поговорим про тестирование конвейеров обработки и аналитики больших данных и разберем несколько прикладных примеров для компонентов экосистемы Apache…