Анализ данных Youtube в реальном времени с Apache NiFi, Kafka и Spark Streaming

Автор Категория , , ,
Анализ данных Youtube в реальном времени с Apache NiFi, Kafka и Spark Streaming

В этой статье для дата-инженеров рассмотрим пример конвейера анализа потокового видео с Youtube-каналов на Kafka, Spark Streaming и Elasticsearch c Kibana, связанных через процессоры Apache NiFi. Постановка задачи: ETL-конвейер анализа…

Интеграция Apache NiFi и Hive в ETL-конвейере

Автор Категория , ,
Интеграция Apache NiFi  и Hive в ETL-конвейере

В этой статье для дата-инженеров рассмотрим пример интеграции Apache NiFi c Hive в рамках ETL-конвейера потокового веб-скрейпинга, который будет получать данные с веб-страницы практически без кода, обрабатывать их и загружать…

Как написать свой ExecuteScript-процессор Apache NiFi на TypeScript

Автор Категория ,
Как написать свой ExecuteScript-процессор Apache NiFi  на TypeScript

Сегодня рассмотрим, что такое процессор ExecuteScript в Apache NiFi, как с его помощью реализовать собственную бизнес-логику обработки потоков данных на мульти-парадигмальном языке программирования TypeScript и чем это будет лучше кода…

Прожорливый Apache NiFi: обработка потоков и проблемы потребления ресурсов

Автор Категория ,
Прожорливый Apache NiFi: обработка потоков и проблемы потребления ресурсов

Недавно мы рассказывали про тонкости хранения потоковых файлов в Apache NiFi. Продолжая эту важную для обучения дата-инженеров тему, сегодня разберем еще несколько причин повышенного потребления ресурсов при работе с этим…

Диски и потоки в Apache NiFi: ищем компромисс

Автор Категория ,
Диски и потоки в Apache NiFi: ищем компромисс

Мы уже писали про главные недостатки Apache NiFi как инструмента потоковой маршрутизации данных и организации ETL-процессов. Одним из них считается высокое потребление дискового пространства. Почему это случается и как с…

Из AWS S3 в Hadoop HDFS: мини-конвейер из процессоров Apache NiFi

Автор Категория ,
Из AWS S3 в Hadoop HDFS: мини-конвейер из процессоров Apache NiFi

Продолжая рассматривать примеры для обучения дата-инженеров по построению ETL-конвейеров, сегодня разберем, как перенести данные из облачного объектного хранилища AWS S3 в озеро данных на Hadoop HDFS с помощью готовых процессоров…

ETL с Apache NiFi: практический пример

Автор Категория ,
ETL с Apache NiFi: практический пример

Чтобы на наглядном примере показать, чем Apache NiFi полезен для дата-инженера, сегодня рассмотрим практический кейс построения простого ETL-конвейера. Как собрать данные из разных API, записать их в СУБД и отправить…

Apache NiFi Flow Design System: назначение и возможности

Автор Категория ,
Apache NiFi Flow Design System: назначение и возможности

Продвигая наши курсы для дата-инженеров и администраторов кластера Apache NiFi, сегодня рассмотрим, что такое Flow Design System, чем полезен этот подпроект фреймворка потокового сбора и маршрутизации больших данных и как…

Apache NiFi 1.16.0: краткий обзор нового релиза

Автор Категория ,
Apache NiFi 1.16.0: краткий обзор нового релиза

Сообщество разработчиков Apache NiFi регулярно радует новыми выпусками. Не успели мы полностью освоить январский релиз 2022, в начале марта появилась еще более свежая версия этого потокового маршрутизатора. Самое главное в…

Аутентификация пользователей Apache NiFi с OIDC от Okta

Автор Категория ,
Аутентификация пользователей Apache NiFi с OIDC от Okta

Для практического обучения разработчиков Data Flow и инженеров данных, сегодня разберем способ аутентификации пользователей Apache NiFi на примере Okta OIDC в качестве сервиса провайдера удостоверений. Также вспомним другие способы аутентификации…