AIRF: Курс Apache AirFlow

Практический курс Data Pipeline на Apache Airflow и Apache Hadoop

Ближайшая дата курса
20 декабря 2021
09 марта 2022
Стоимость обучения 54.000 руб. Регистрация
Код курса AIRF

3-хдневный практический курс Data Pipeline на Apache Airflow и Apache Hadoop для аналитиков и инженеров данных, архитекторов и специалистов по настройке и сопровождению потоков данных (Data Flow) в организации и озерах данных под управление Hadoop и  AirFlow.

Что такое Apache Airflow и где это используется

Apache Airflow — это open-source набор библиотек для разработки, планирования и мониторинга рабочих процессов. Этот инструмент написан на языке программирования Python и позволяет создавать и настраивать цепочки задач как в визуальном режиме с помощью наглядного web-GUI, так и писать программный код на Python.

AirFlow принято называть ETL-средством для пакетов Big Data, он не является классической ETL-системой, а лишь помогает представить процесс извлечения-преобразования-загрузки данных в виде единого проекта на Python, чтобы удобно и эффективно управлять им.

На практике Apache Airflow используется в следующих случаях:

  • интеграция множества информационных систем и данных из различных источников (внутренние и внешние базы, файловые хранилища, облачные приложения и пр.);
  • загрузка информации в корпоративное озеро данных (Data Lake);
  • организация уникальных конвейеров доставки и обработки больших данных (data pipeline);
  • управление конфигурацией конвейеров данных как кодом в соответствии с DevOps-подходом;
  • автоматизация разработки, планирования и мониторинга batch-процессов обработки Data Flow.

Все эти и другие примеры прикладного использования Apache Airflow для управления batch-процессами обработки больших данных разбираются в рамках нашего практического курса.

 

 

Кому нужны курсы по Airflow

Наши курсы обучения по Airflow ориентированы на системных администраторов, инженеров данных (Data Engineer), архитекторов, DevOps-инженеров, разработчиков Hadoop и прочих Big Data систем, которые хотят получить практические знания и навыки по работе с batch-процессами и конвейерами обработки больших данных:

  • понять, что такое Apache Airflow;
  • уяснить отличия Airfow от NiFi;
  • освоить принципы работы с задачами, операторами и DAG’ами;
  • научиться настраивать рабочее окружение для Airflow;
  • освоить методы администрирования и мониторинга кластера Airflow;
  • интегрировать Apache Aiflow с другими Big Data фреймворками (Hadoop, Spark) и внешними системами.

Предварительный уровень подготовки:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой
    системой , POSIX, текстовыми редакторами vi, nano)
  • Начальный опыт программирования Python/bash
  • Начальный опыт в экосистеме Apache Hadoop

Как устроено обучение Apache Airflow

Продолжительность: 3 дня, 24 академических часа

Соотношение теории к практике 50/50

3дневный  курс обучения по Airflow позволит вам получить и систематизировать знания по использованию этого фреймворка для разработки, планирования и мониторинга рабочих процессов с большими данными.  Курс содержит расширенные сведения по установке распределенного кластера Apache Airflow, администрированию и интеграции этой платформы с другими технологиями Big Data в соответствии с лучшими практиками (best practices).

Вы изучите необходимый теоретический минимум, чтобы понять основные концепции этого инструмента и узнаете некоторые особенности управления кластером Airflow. Преподаватель курса по Apache Airflow подробно объяснит все тонкости установки, конфигурирования, мониторинга и прикладного использования этой Big Data системы, чтобы вы могли самостоятельно работать с ней в реальности.
На практике вы развернете собственный кластер Apache Airflow, настроив его конфигурацию, создадите свои сценарии и схемы пакетной обработки информации, реализовав собственный конвейер данных (data pipeline) и операторы DAG. 

 

 

Программа курса Data Pipeline на Apache Airflow и Apache Hadoop

  1. Введение в AirFlow
    • История появления, решаемые задачи, место в наборе инструментов по обработке данных
    • Основные объекты (DAG, оператор и task, сенсор, объединение компонентов в DAG)
    • Процесс исполнения (worker-ы и executor-ы, параллельное и последовательное исполнение)
    • Планирование и график исполнения DAG
    • Компоненты Airflow (scheduler, административный web-интерфейс)
    • Алерты и логирование
    • Переменные и xcomm
    • Connection и работа с источниками данных
  2. Разработка Data Flow с Apache AirFlow
    • Процесс создания DAG
    • Основные операторы
    • Создание (настройка) python и bash операторов
    • Создание собственных операторов и сенсоров
    • Использование connection
    • Hooks и практические примеры использования
    • xcomm и переменные: зачем нужны и что дают
    • Возможности макроязыка (Jinja)
    • Настройка расписания и его особенности
  3. Развертывание и настройка Airflow
    • Установка Airflow в конфигурации по умолчанию (SQLite, SequentialExecutor)
    • Основные параметры конфигурации
    • Использование Celery executor
    • Кластеризация (масштабируемость, отказоустойчивость)
  4. Особенности разработки и использования Airflow
    • Отладка и тестирование
    • Поиск информации в лог-файлах
    • Нюансы встраивания Airflow в CI/CD конвейеры и системы управления версиями
    • Airflow и Apache Spark

Практические занятия:

  • Создание простых DAG
  • Настройка python и bash операторов
  • Разработка операторов и сенсоров
  • Работа с источниками данных
  • Взаимодействие с Apache Spark

 

 

Программа курса «Управление Data Flow с использованием Apache AirFlow»

Скачать программу курса «Управление Data Flow с использованием Apache AirFlow» в формате pdf

Отправить ссылку на: