В этой статье для дата-инженеров рассмотрим пример конвейера анализа потокового видео с Youtube-каналов на Kafka, Spark Streaming и Elasticsearch c Kibana, связанных через процессоры Apache NiFi. Постановка задачи: ETL-конвейер анализа…
Рубрика: NiFi
Интеграция Apache NiFi и Hive в ETL-конвейере
Автор Анна ВичуговаКатегория Hive, NiFi, СтатьиВ этой статье для дата-инженеров рассмотрим пример интеграции Apache NiFi c Hive в рамках ETL-конвейера потокового веб-скрейпинга, который будет получать данные с веб-страницы практически без кода, обрабатывать их и загружать…
Как написать свой ExecuteScript-процессор Apache NiFi на TypeScript
Автор Анна ВичуговаКатегория NiFi, СтатьиСегодня рассмотрим, что такое процессор ExecuteScript в Apache NiFi, как с его помощью реализовать собственную бизнес-логику обработки потоков данных на мульти-парадигмальном языке программирования TypeScript и чем это будет лучше кода…
Прожорливый Apache NiFi: обработка потоков и проблемы потребления ресурсов
Автор Анна ВичуговаКатегория NiFi, СтатьиНедавно мы рассказывали про тонкости хранения потоковых файлов в Apache NiFi. Продолжая эту важную для обучения дата-инженеров тему, сегодня разберем еще несколько причин повышенного потребления ресурсов при работе с этим…
Диски и потоки в Apache NiFi: ищем компромисс
Автор Анна ВичуговаКатегория NiFi, СтатьиМы уже писали про главные недостатки Apache NiFi как инструмента потоковой маршрутизации данных и организации ETL-процессов. Одним из них считается высокое потребление дискового пространства. Почему это случается и как с…
Из AWS S3 в Hadoop HDFS: мини-конвейер из процессоров Apache NiFi
Автор Анна ВичуговаКатегория NiFi, СтатьиПродолжая рассматривать примеры для обучения дата-инженеров по построению ETL-конвейеров, сегодня разберем, как перенести данные из облачного объектного хранилища AWS S3 в озеро данных на Hadoop HDFS с помощью готовых процессоров…
ETL с Apache NiFi: практический пример
Автор Анна ВичуговаКатегория NiFi, СтатьиЧтобы на наглядном примере показать, чем Apache NiFi полезен для дата-инженера, сегодня рассмотрим практический кейс построения простого ETL-конвейера. Как собрать данные из разных API, записать их в СУБД и отправить…
Apache NiFi Flow Design System: назначение и возможности
Автор Анна ВичуговаКатегория NiFi, СтатьиПродвигая наши курсы для дата-инженеров и администраторов кластера Apache NiFi, сегодня рассмотрим, что такое Flow Design System, чем полезен этот подпроект фреймворка потокового сбора и маршрутизации больших данных и как…
Apache NiFi 1.16.0: краткий обзор нового релиза
Автор Анна ВичуговаКатегория NiFi, СтатьиСообщество разработчиков Apache NiFi регулярно радует новыми выпусками. Не успели мы полностью освоить январский релиз 2022, в начале марта появилась еще более свежая версия этого потокового маршрутизатора. Самое главное в…
Аутентификация пользователей Apache NiFi с OIDC от Okta
Автор Анна ВичуговаКатегория NiFi, СтатьиДля практического обучения разработчиков Data Flow и инженеров данных, сегодня разберем способ аутентификации пользователей Apache NiFi на примере Okta OIDC в качестве сервиса провайдера удостоверений. Также вспомним другие способы аутентификации…