15 июня 2022 года вышел новый выпуск Apache NiFi. Разбираем, что нового и полезного в релизе 1.16.3: исправленные ошибки, а также улучшения, важные для дата-инженера и администратора кластера Apache NiFi.…
Метка: NiFi
Реестр Apache NiFi в Kubernetes: как легко развернуть и безопасно использовать
Автор Анна ВичуговаКатегория NiFi, СтатьиМы уже писали о преимуществах развертывания Apache NiFi на Kubernetes, а также сложностях практической реализации этого процесса. Сегодня поговорим о контейнеризации реестра NiFi с использованием Helm-диаграмм, а также совмещения с…
5 достоинств и 3 недостатка скриптовых компонентов Apache NiFi
Автор Анна ВичуговаКатегория NiFi, СтатьиВ этой статье для дата-инженеров разберемся, что такое NiFi Scripted Components и как они заполняют пробел между скриптами и пользовательскими компонентами: процессорами, контроллерами, сообщениями и средствами их чтения/записи. Рассмотрим примеры…
Анализ данных Youtube в реальном времени с Apache NiFi, Kafka и Spark Streaming
Автор Анна ВичуговаКатегория Kafka, NiFi, Spark, СтатьиВ этой статье для дата-инженеров рассмотрим пример конвейера анализа потокового видео с Youtube-каналов на Kafka, Spark Streaming и Elasticsearch c Kibana, связанных через процессоры Apache NiFi. Постановка задачи: ETL-конвейер анализа…
Интеграция Apache NiFi и Hive в ETL-конвейере
Автор Анна ВичуговаКатегория Hive, NiFi, СтатьиВ этой статье для дата-инженеров рассмотрим пример интеграции Apache NiFi c Hive в рамках ETL-конвейера потокового веб-скрейпинга, который будет получать данные с веб-страницы практически без кода, обрабатывать их и загружать…
Как написать свой ExecuteScript-процессор Apache NiFi на TypeScript
Автор Анна ВичуговаКатегория NiFi, СтатьиСегодня рассмотрим, что такое процессор ExecuteScript в Apache NiFi, как с его помощью реализовать собственную бизнес-логику обработки потоков данных на мульти-парадигмальном языке программирования TypeScript и чем это будет лучше кода…
Прожорливый Apache NiFi: обработка потоков и проблемы потребления ресурсов
Автор Анна ВичуговаКатегория NiFi, СтатьиНедавно мы рассказывали про тонкости хранения потоковых файлов в Apache NiFi. Продолжая эту важную для обучения дата-инженеров тему, сегодня разберем еще несколько причин повышенного потребления ресурсов при работе с этим…
Диски и потоки в Apache NiFi: ищем компромисс
Автор Анна ВичуговаКатегория NiFi, СтатьиМы уже писали про главные недостатки Apache NiFi как инструмента потоковой маршрутизации данных и организации ETL-процессов. Одним из них считается высокое потребление дискового пространства. Почему это случается и как с…
Из AWS S3 в Hadoop HDFS: мини-конвейер из процессоров Apache NiFi
Автор Анна ВичуговаКатегория NiFi, СтатьиПродолжая рассматривать примеры для обучения дата-инженеров по построению ETL-конвейеров, сегодня разберем, как перенести данные из облачного объектного хранилища AWS S3 в озеро данных на Hadoop HDFS с помощью готовых процессоров…
ETL с Apache NiFi: практический пример
Автор Анна ВичуговаКатегория NiFi, СтатьиЧтобы на наглядном примере показать, чем Apache NiFi полезен для дата-инженера, сегодня рассмотрим практический кейс построения простого ETL-конвейера. Как собрать данные из разных API, записать их в СУБД и отправить…