Apache NiFi для всех: Cloudera Flow Management в публичном облаке

Автор Категория , ,
Apache NiFi для всех: Cloudera Flow Management в публичном облаке

Чтобы сделать наши курсы по Apache NiFi для дата-инженеров еще более полезными, сегодня рассмотрим новые возможности последнего релиза Cloudera Flow Management 2.1.1 на базе этого фреймворка. Выпущенная в апреле 2021…

5 проблем Apache NiFi на Kubernetes и способы их решения

Автор Категория , ,
5 проблем Apache NiFi на Kubernetes и способы их решения

В рамках нового курса Apache NiFi для инженеров данных, сегодня разберем особенности развертывания этого маршрутизатора потоков Big Data на платформе управления контейнерными приложениями Kubernetes. Советы дата-инженерам, как сократить расходы на…

Почему stateful-приложения Apache Flink падают в AWS: RocksDB и IOPS облачных SSD

Автор Категория , ,
Почему stateful-приложения Apache Flink падают в AWS: RocksDB и IOPS облачных SSD

Продолжая разбирать особенности разработки потоковых приложений Apache Flink, сегодня рассмотрим проблему падения пропускной способности задания из-за встроенного хранилища состояний RocksDB и ее зависимость от производительности дисков. Вас ждет настоящая детективная…

Планируем и запускаем дата-конвейеры с Apache AirFlow и Dagster

Автор Категория ,
Планируем и запускаем дата-конвейеры с Apache AirFlow и Dagster

Продолжая сравнивать Apache AirFlow с Dagster, сегодня рассмотрим особенности развертывания и эксплуатации этих оркестраторов ETL-процессов и конвейеров обработки данных. Читайте далее о плюсах изоляции процессов, отделения системных служб от пользовательского…

3 оператора Apache Airflow для контейнерных конвейеров данных

Автор Категория ,
3 оператора Apache Airflow для контейнерных конвейеров данных

Совмещение Airflow с Kubernetes уже становится стандартом де-факто для дата-инженеров. Недавно мы рассказывали про 3 популярные среды развертывания и сопровождения этого ETL-фреймворка в Kubernetes. Продолжая эту тему, сегодня рассмотрим, какие…

Где развернуть Apache AirFlow: 3 инфраструктуры для дата-инженера

Автор Категория ,
Где развернуть Apache AirFlow: 3 инфраструктуры для дата-инженера

Для практического использования Apache Airflow в production дата-инженеру необходимо не только обучение основам работы с этим фреймворком, но и знания о базовой инфраструктуре его развертывания. Поэтому сегодня поговорим о 3-х…

Как сэкономить на AWS со Spark и Kubernetes: спотовые узлы и готовые платформы

Автор Категория , ,
Как сэкономить на AWS со Spark и Kubernetes: спотовые узлы и готовые платформы

Продолжая разговор про оптимизацию приложений Apache Spark в Kubernetes, сегодня разберем, как сократить расходы на облачный кластер с помощью спотовых узлов. А в качестве практического примера рассмотрим кейс компании Weather2020,…

Оптимизация Apache Spark на Kubernetes: 4 способа ускорить контейнеризованные приложения

Автор Категория ,
Оптимизация Apache Spark на Kubernetes: 4 способа ускорить контейнеризованные приложения

Недавно мы рассказывали об особенностях запуска приложений Apache Spark в кластере Kubernetes с учетом новшеств релиза 3.1.1, где с этого варианта развертывания снят экспериментальный режим. В дополнение к ранее рассмотренным…

7 функций общей доступности Kubernetes в Apache Spark 3.1.1: мартовский релиз 2021

Автор Категория ,
7 функций общей доступности Kubernetes в Apache Spark 3.1.1: мартовский релиз 2021

Вчера мы упоминали, что с марта 2021 года в версии Apache Spark 3.1.1 с развертывания на Kubernetes снят экспериментальный режим, внесено множество улучшений для стабильной работы контейниризованных приложений и добавлены…

3 достоинства и пара недостатков Apache Spark на Kubernetes

Автор Категория ,
3 достоинства и пара недостатков Apache Spark на Kubernetes

С учетом тренда на контейнеризацию при разработке и развертывании любых технологий, в т.ч. Big Data, сегодня рассмотрим плюсы и минусы совместного использования Apache Spark с Kubernetes. Читайте далее, как отправить…