3 тонкости процессоров в NiFi, о которых вы не знали + 5 лучших практик конфигурирования

Автор Категория ,
3 тонкости процессоров в NiFi, о которых вы не знали + 5 лучших практик конфигурирования

Продолжая обучение дата-инженеров, сегодня рассмотрим, как сделать управление потоками данных в Apache NiFi эффективнее. Читайте далее, какие настройки позволят обойтись без процессора RetryFlowFile для повторных попыток, зачем менять GetFile на…

Лучшие практики разработки Big Data pipeline’ов в Apache Airflow: 10 советов дата-инженеру

Автор Категория ,
Лучшие практики разработки Big Data pipeline’ов в Apache Airflow: 10 советов дата-инженеру

В рамках практического обучения дата-инженеров сегодня мы собрали 10 лучших практик проектирования конвейеров обработки данных в рамках Apache AirFlow, которые касаются не только особенностей этого фреймворка. Также рассмотрим, какие принципы…

Читаем планы SQL-запросов Greenplum на практическом примере и разбираемся с операциями

Автор Категория ,
Читаем планы SQL-запросов Greenplum на практическом примере и разбираемся с операциями

В недавней статье про оптимизацию SQL-запросов в Greenplum мы рассказывали про планы их выполнения и операторы просмотра этих планов. Сегодня разберем подробнее, какие операции с данными могут встретиться в отчете,…

Кастомизация Apache Airflow: мониторинг исполнения Big Data pipeline’ов со своими KPI

Автор Категория , ,
Кастомизация Apache Airflow: мониторинг исполнения Big Data pipeline’ов со своими KPI

Добавляя в наши курсы по Apache AirFlow еще больше полезных практик, сегодня разберем опыт дата-инженеров американской компании Groupon по настройке этого фреймворка. Читайте далее, как добавить собственные KPI исполнения конвейеров…

Почему stateful-приложения Apache Flink падают в AWS: RocksDB и IOPS облачных SSD

Автор Категория , ,
Почему stateful-приложения Apache Flink падают в AWS: RocksDB и IOPS облачных SSD

Продолжая разбирать особенности разработки потоковых приложений Apache Flink, сегодня рассмотрим проблему падения пропускной способности задания из-за встроенного хранилища состояний RocksDB и ее зависимость от производительности дисков. Вас ждет настоящая детективная…

Как читать планы SQL-запросов в Greenplum: советы аналитику и дата-инженеру

Автор Категория ,
Как читать планы SQL-запросов в Greenplum: советы аналитику и дата-инженеру

Обучая дата-аналитиков и инженеров данных тонкостям MPP-СУБД Greenplum, сегодня разберем, какой оператор помогает просмотреть план выполнения SQL-запроса, почему добавлять ANALYZE к EXPLAIN нужно с осторожностью и где найти универсальное решение…

В помощь дата-инженеру: 3 DAG для самообслуживания Apache Airflow

Автор Категория ,
В помощь дата-инженеру: 3 DAG для самообслуживания Apache Airflow

Развивая наши курсы по Apache AirFlow для дата-инженеров и администраторов, сегодня рассмотрим, как автоматизировать обслуживание этого фреймворка, запуская поддерживающие операции как рабочие задачи по расписанию. В этой статье разбираем опыт…

Анализируй и оптимизируй: статистика таблиц и планы выполнения SQL-запросов в Greenplum

Автор Категория ,
Анализируй и оптимизируй: статистика таблиц и планы выполнения SQL-запросов в Greenplum

Чтобы сделать наши курсы по Greenplum и аналитике больших данных еще более полезными, сегодня рассмотрим особенности выполнения SQL-запросов в этой MPP-СУБД. Читайте далее, зачем и когда запускать оператор анализа табличной…

От простой вставки до внешних таблиц: как загрузить Big Data в Greenplum

Автор Категория ,
От простой вставки до внешних таблиц: как загрузить Big Data в Greenplum

Greenplum часто используется в качестве корпоративного хранилища или аналитического озера данных (Data Lake). Поэтому важно знать особенности реализации ETL-процессов при работе с этой MPP-СУБД, что входит в наш новый курс…

Как ускорить Greenplum: настраиваем память хостов и сегментов

Автор Категория ,
Как ускорить Greenplum: настраиваем память хостов и сегментов

Продолжая рассказывать про наш новый курс «Greenplum для инженеров данных», сегодня поговорим про особенности конфигурирования памяти в этой MPP-СУБД: разберем, как память хоста распределяется между сегментами и рассмотрим, как администратор…