Курс Apache AirFlow

Apache AirFlow = планировщик процессов для ETL

Практический курс  Apache AirFlow   

Ближайшая дата курса 03 — 04 апреля
  24 — 25 июля
   
Стоимость обучения 36.000 рублей
Код курса AIRF

курсы обучения Hadoop и машинного обучения

2-хдневный практический курс по Apache AirFlow для аналитиков и инженеров данных, архитекторов и специалистов по настройке и сопровождению потоков данных (Data Flow) в организации и озерах данных под управление Hadoop и  AirFlow.

Что такое Apache Airflow и где это используется

Apache Airflow — это open-source набор библиотек для разработки, планирования и мониторинга рабочих процессов. Этот инструмент написан на языке программирования Python и позволяет создавать и настраивать цепочки задач как в визуальном режиме с помощью наглядного web-GUI, так и писать программный код на Python.

AirFlow принято называть ETL-средством для пакетов Big Data, он не является классической ETL-системой, а лишь помогает представить процесс извлечения-преобразования-загрузки данных в виде единого проекта на Python, чтобы удобно и эффективно управлять им.

На практике Apache Airflow используется в следующих случаях:

  • интеграция множества информационных систем и данных из различных источников (внутренние и внешние базы, файловые хранилища, облачные приложения и пр.);
  • загрузка информации в корпоративное озеро данных (Data Lake);
  • организация уникальных конвейеров доставки и обработки больших данных (data pipeline);
  • управление конфигурацией конвейеров данных как кодом в соответствии с DevOps-подходом;
  • автоматизация разработки, планирования и мониторинга batch-процессов обработки Data Flow.

Все эти и другие примеры прикладного использования Apache Airflow для управления batch-процессами обработки больших данных разбираются в рамках нашего практического курса.

Программа курса обучения

Кому нужны курсы по Airflow

Наши курсы обучения по Airflow ориентированы на системных администраторов, инженеров данных (Data Engineer), архитекторов, DevOps-инженеров, разработчиков Hadoop и прочих Big Data систем, которые хотят получить практические знания и навыки по работе с batch-процессами:

  • понять, что такое Apache Airflow;
  • уяснить отличия Airfow от NiFi;
  • освоить принципы работы с задачами, операторами и DAG’ами;
  • научиться настраивать рабочее окружение для Airflow;
  • освоить методы администрирования и мониторинга кластера Airflow;
  • интегрировать Apache Aiflow с другими Big Data фреймворками (KafkaHadoop, Spark) и внешними системами.
Предварительный уровень подготовки:
  • Начальный опыт работы в Unix
  • Опыт работы с текстовым редактором vi (желателен)
  • Начальный опыт программирования Python/bash

Как устроено обучение Apache Airflow

Продолжительность: 2 дня, 16 академических часов.

Соотношение теории к практике 60/40

2дневный  курс обучения по Airflow позволит вам получить и систематизировать знания по использованию этого фреймворка для разработки, планирования и мониторинга рабочих процессов с большими данными.  Курс содержит расширенные сведения по установке распределенного кластера Apache Airflow, администрированию и интеграции этой платформы с другими технологиями Big Data в соответствии с лучшими практиками (best practices).

Вы изучите необходимый теоретический минимум, чтобы понять основные концепции этого инструмента и узнаете некоторые особенности управления кластером Airflow. Преподаватель курса по Apache Airflow подробно объяснит все тонкости установки, конфигурирования, мониторинга и прикладного использования этой Big Data системы, чтобы вы могли самостоятельно работать с ней в реальности.
На практике вы развернете собственный кластер Apache Airflow, настроив его конфигурацию, создадите свои сценарии и схемы пакетной обработки информации, реализовав собственный конвейер данных (data pipeline) и операторы DAG. 

курсы обучения администраторов Apache Kafka и Confluent

Программа курса по Apache AirFlow

  1. Введение в Data Flow

    • Введение в AirFlow
    • История появления,на чем написан (python)
    • Основной объект (DAG)
    • Операторы и таски
    • Worker
    • Scheduler, schedule interval и execution date
    • Pool’ы
    • Приоритезация
    • Метаданные
    • Airflow UI и Webserver
    • Мониторинг (средства Airflow и кастомные варианты)
    • Алерты 
    • Логирование
  2. Разработка Data Flow с Apache AirFlow

    • Создание и основные параметры DAG
    • Operators и plugins
    • Hooks, connections, и variables
    • Работающие из коробки и уже написанные community операторы, хуки и т.п.
    • Создание тасков
    • Макросы (Jinja)
    • Управление зависимостями (внутри DAG, внешние зависимости, timedelta)
    • Визуализация в Web UI
    • Настройка расписания
    • Контекст (выполнения task)
    • Обмен сообщениями между tasks, DAGS (xcom)
    • Добавление настраиваемых операторов, сенсоров, хуков и т.п.
  3. Развертывание и настройка Airflow

    • Установка Apache Airflow в конфигурации по умолчанию (SQLite, SequentialExecutor)
    • Установка Redis, Celery
    • Настройка airflow.cfg (PostgreSQL, Celery, Redis, parallel degree…)
    • Запуск (service,нрsystemctl, doker)
    • Кластеризация (масштабируемость, безотказность)
  4. Особенности и проблемы в Airflow

    • Версии python(2 или 3)
    • Debug
    • Тестирование
    • Логирование

Практические занятия:

  • Настройка окружения (Pycharm, python, библиотеки для окружения в Virtualenv).
  • Использование DAG с задачами BashOperator / PythonOperator для получения данных из Apache Kafka.
  • Настраиваемые операторы, осуществляющие по заданным параметрам выгрузку из Apache Kafka.
  • Создание DAG, использующего созданный оператор.

курсы обучения Apache AirFlow

Скачать программу курса «Управление Data Flow с использованием Apache AirFlow» в формате pdf

Apache Airflow