Управление Data Flow с использованием Apache AirFlow

Ближайшая дата курса 22-23 ноября
  21-22 января 
Стоимость обучения    36.000 рублей

курсы обучения Hadoop и машинного обучения

2х-дневный практический курс по Apache AirFlow разработан для специалистов, инженеров данных и архитекторов отвечающих за настройку и сопровождение потоков данных (Data Flow) в организации и озерах данных под управление Hadoop и Apache AirFlow.

Аудитория: Системные администраторы, системные архитекторы, разработчики Hadoop желающие получить практические навыки по управлению потоковыми данными с использованием Apache AirFlow.

Предварительный уровень подготовки:

  • Начальный опыт работы в Unix, опыт работы с текстовым редактором vi (желателен)
  • Начальный опыт программирования Python/bash

Продолжительность: 2 дня, 16 академических часов.

Соотношение теории к практике 60/40

Программа курса

  1. Введение в Data Flow
    • История появления,на чем написан (python)
    • Основной объект (DAG)
    • Операторы и таски
    • Worker
    • Scheduler, schedule interval и execution date
    • Pool’ы
    • Приоритезация
    • Метаданные
    • Airflow UI и Webserver
    • Мониторинг (средства Airflow и кастомные варианты)
    • АлертыВведение в Apache AirFlow
    • Логирование
  2. Разработка Data Flow с Apache AirFlow
    • Создание и основные параметры DAG
    • Operators и plugins
    • Hooks, connections, и variables
    • Работающие из коробки и уже написанные community операторы, хуки и т.п.
    • Создание тасков
    • Макросы (Jinja)
    • Управление зависимостями (внутри DAG, внешние зависимости, timedelta)
    • Визуализация в Web UI
    • Настройка расписания
    • Контекст (выполнения task)
    • Обмен сообщениями между tasks, DAGS (xcom)
    • Добавление настраиваемых операторов, сенсоров, хуков и т.п.
  3. Развертывание и настройка Airflow
    • Установка Airflow в конфигурации по умолчанию (SQLite, SequentialExecutor)
    • Установка Redis, Celery
    • Настройка airflow.cfg (PostgreSQL, Celery, Redis, parallel degree…)
    • Запуск (service,нрsystemctl, doker)
    • Кластеризация (масштабируемость, безотказность)
  4. Особенности и проблемы в Airflow
    • Версии python(2 или 3)
    • Debug
    • Тестирование
    • Логирование

Практические занятия:
— Настройка окружения (Pycharm, python, библиотеки для окружения в Virtualenv).
— Создание DAG с задачами BashOperator / PythonOperator для получения данных из Kafka.
— Создание кастомного оператора, осуществляющего по заданным параметрам выгрузку из Kafka. Создание DAG, использующего созданный оператор.

курсы обучения Hadoop и машинного обучения

 

Скачать программу курса «Управление Data Flow с использованием Apache AirFlow» в формате pdf