Apache NiFi для инженеров данных
Ближайшая дата курса
30 сентября 2021
29 ноября 2021
Стоимость обучения 36.000 руб. Регистрация
Код курса NFED

Длительность: 16 ак. часов

ЧТО ТАКОЕ APACHE NIFI И ГДЕ ЭТО ИСПОЛЬЗУЕТСЯ

Apache NiFi – это платформа потоковой маршрутизации, преобразования и доставки событий (сообщений), которая позволяет дата-инженеру управлять потоками данных из разнообразных источников в режиме реального времени в рамках веб-GUI. Этот распределенный ETL-инструмент с открытым исходным кодом, гарантированной доставкой и возможностью хранить данные до выгрузки их в другие системы обеспечивает балансировку нагрузки и предоставляет удобный веб-интерфейс для проектирования потоков данных.

На практике Apache NiFi широко используется в следующих задачах:

  • распределенная платформа передачи информации в корпоративное озеро данных (Data Lake) и средство выгрузки из него в сторонние системы, включая облачные платформы и базы данных;
  • ETL-интегратор технологических данных со smart-устройств при организации IoT/IIoT-систем;
  • средство реализации концепции «данные как сервис» (Data as a Service), которое собирает REST-подобные запросы, отправляя их в инструмент моделирования в поточном и в пакетном режимах;
  • маршрутизатор больших файлов и аутентификационных потоков, который взаимодействует с внешними хранилищами данных и инструментами моделирования с помощью SQL-запросов;
  • шлюз данных и транзакционный маршрутизатор для получения бизнес-метрик в режиме реального времени с последующей обработкой с помощью Apache Spark и других инструментов аналитики Big Data и машинного обучения.

 

О курсе Apache NiFi для инженеров данных

2-хдневный курс обучения по NiFi позволит вам получить и систематизировать знания по использованию НайФай для машрутизации и преобразования распределенных потоков больших данных. Курс нацелен на вопросы использования возможностей Apache NiFi для построения гибкого потока обработки данных, включая программную обработку данных, работу со слабо-структурированными данными и использование локального состояния в соответствии с лучшими практиками (best practices).

Вы изучите необходимый теоретический минимум, чтобы понять основные концепции этой платформы маршрутизации, преобразования и доставки данных из множества сторонних систем и узнаете особенности подхода НайФай к построению конвейеров обработки данных. Преподаватель курса “Apache NiFi для инженеров данных” подробно объяснит все тонкости настройки, мониторинга и прикладного использования этой Big Data платформы с тем, чтобы вы могли самостоятельно работать с ней по окончании курса.

На практике вы реализуете собственный конвейер обработки потока данных с помощью Apache NiFi, научитесь работать с атрибутами и содержимым flowfile, сможете маршутизировать потоки данных, конвертировать «сырые» данные Raw-формата в полу-структурированные, анализировать их и использовать локальное хранилище состояний процессоров Apache NiFi.

 

 

Как проходит обучение дата-инженеров в Школе Больших Данных

Для кого предназначен курс: целевая аудитория

Дата-инженеры и специалисты по данным, которые хотят изучить необходимый теоретический минимум по Apache NiFi, чтобы понять основные концепции платформы маршрутизации, преобразования и доставки данных из множества сторонних систем, а также узнать особенности подхода НайФай к построению конвейеров обработки данных.

Соотношение теории к практике 50/50

Предварительная подготовка

  • Уверенное знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)

 

 

Программа курса «Apache NiFi для инженеров данных»

 

1. Введение и архитектура Apache NiFi

  • Введение в NiFi
  • Архитектура и основные абстракции. DataFlow. FlowFile. Processor. Data Provenance и Lineage

2. Создание DataFlow

  • Наш первый dataflow: работа с атрибутами flowfile, маршрутизация, source и sink
  • Репозитории, анатомия FlowFile и процессоры
  • Мониторинг dataflow
  • Параметризация dataflow: переменные и параметры          

3. Программная обработка flowfile

  • Использование скриптов в NiFi: работа с атрибутами и данными flowfile, программная маршрутизация flowfile
  • Сбор данных в месте их производства с помощью Apache minifi

4. Работа с Records и Local State

  • Controlling service и работа с Records и State: формат flowfile и его преобразование, State Manager и его использование
  • Reporting tasks и обработка результатов
  • Происхождение данных: анализ provenance и lineage

 

 

Программа курса «Apache NiFi для инженеров данных»

Скачать программу курса «Apache NiFi для инженеров данных»

Укажите e-mail, на который будет оправлена ссылка для скачивания файла: