Все курсы

курсы AirFlow, AIRFLOW с использованием Yandex Managed Service for Apache Airflow™

AIRFLOW с использованием Yandex Managed Service for Apache Airflow™

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
YARF
27 мая 2024
19 июня 2024
72 000 руб. 24 ак.часов Дистанционный
Регистрация

3-хдневный  курс обучения по Airflow позволит вам получить и систематизировать знания по использованию этого фреймворка для разработки, планирования и мониторинга рабочих процессов с большими данными.  Курс содержит расширенные сведения по установке распределенного кластера Apache Airflow, администрированию и интеграции этой платформы с другими технологиями Big Data в соответствии с лучшими практиками (best practices).

Что такое Yandex Managed Service for Apache Airflow™

Apache Airflow — это фреймворк управления рабочими процессами и расписанием задач. Он написан на Python, имеет открытый исходный код и позволяет создавать, планировать, запуска и отслеживать выполнение пакетных рабочих процессов (workflow). Эти рабочие процессы обработки данных обычно включают несколько задач и выполняются в заданном порядке. Сегодня Airflow стал одним из наиболее востребованных инструментов дата-инженера, он широко используется для автоматизации и оркестрации сложных рабочих процессов от аналитики данных до машинного обучения и ETL-процессов. Фреймворк применяется для загрузки данных из разных источников, вычислений, запуска ML-моделей, генерации отчетов и других вычислительных операций.

Благодаря настраиваемым конфигурациям и Python-скриптам Airflow очень гибкий и подходит для множества сценариев. Расширяемая архитектура фреймворка позволяет добавлять собственные операторы и подключать сторонние инструменты. Чтобы дата-инженер не тратил время на управление инфраструктурой Airflow, Яндекс выпустил Yandex Managed Airflow — полностью управляемый сервис. Он позволяет использовать все возможности фреймворка, фокусируясь на построении эффективных конвейеров обработки данных вместо заботы об инфраструктуре. Этот курс по AirFlow на платформе Yandex разработан специалистами Школы Больших Данных совместно с дата-инженерами Яндекса.

Программа курса AIRFLOW с использованием Yandex Managed Service for Apache Airflow™

  1. Введение в Airflow

  • Что такое Airflow?
  • Почему Airflow?
  • История создания
  • Аналоги и конкуренты
  • Airflow vs Oozie
  • “Киты” Airflow
  • Настройка образа в YandexCloud
  1. Базовый Airflow

  • Верхнеуровневая архитектура
  • Компоненты: подробнее
  • Executors
  • LocalExecutor
  • Схема учебного стенда
  • DAG
  • DAG: параметры
  • Operators
  • Operators: виды
  • WEB UI: обзор
  • Пайплайн по созданию DAG
  • Dag: context
  • Operator: основные параметры
  • Composition
  • EmptyOperator
  • BashOperator
  • Написание первого DAG
  • TaskFlowApi
  • PythonOperator
Практика № 1. Создание первого DAG, использование Python и Bash операторов, использование WebUI

Запуск DAG с ручной конфигурацией

Практика № 2. Написание DAG с ручной передачей параметров
  • Переменные и их использование (Variables)
Практика № 3. Применение Variables, default_args
Практика № 4. Применение Variables расширенное
  • Connections
  • Sensors
Практика № 5. Применение fileSensor
  • ExternalTaskSensor

 

  1. Расширенный Airflow

Trigger Rules

Практика № 6. Использование fileSensor + triggerRules
  • Backfill & catchup
  • Templates
  • Macros
  • Yandex Managed Service for PostgreSQL
  • Демонстрация ETL процесса на временном DataProc(Spark) кластере в Yandex Cloud
Практика № 7. Использование PostgresOperator, оркестрация ETL процесса
  • Hooks
Практика № 8. Применение Hooks
  • TaskGroup
  • XCOM
  • Dynamic Tasks
  • XCOM vs Variable
Практика № 9. Финальная практика, включающая в себя все вышеизученное

Кому нужны курсы по Airflow

Наши курсы обучения по Airflow ориентированы на системных администраторов, инженеров данных (Data Engineer), архитекторов, DevOps-инженеров, разработчиков Hadoop и прочих Big Data систем.

Предварительный уровень подготовки:
  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano)
  • Базовый опыт программирования Python/bash
  • Начальный опыт в экосистеме Apache Hadoop
  • Средний опыт программирования SQL

Весь курс проводится на Yandex Managed Service for Apache Airflow™.

Продолжительность: 3 дня, 24 академических часа
Соотношение теории к практике 50/50

Программа курса «AIRFLOW с использованием Yandex Managed Service for Apache Airflow™»

Скачать программу курса «AIRFLOW с использованием Yandex Managed Service for Apache Airflow™» в формате pdf

Укажите e-mail, на который будет оправлена ссылка для скачивания файла:

Кто проводит курс

prepod_kartashov_andrey
Преподаватель Школы Больших Данных

Карташов Андрей

Самарский государственный университет путей сообщения, ЭТФ, АСОиИУ,
(Самара, 2014)
Профессиональные компетенции:
  • Разработчик Python/Data Engineer/Scala
  • Сопровождение, интеграция данных с помощью Apache Hadoop (Hbase,Hdfs, Kafka, Spark, Hive)
  • Администрирование RHEL
  • Разработка на Python
  • Работа с мониторингом (Zabbix)
  • Data Engineer в ВымпелКом-ИТ
  • Старший аналитик/Ведущий инженер по разработке в Сбер, Самара

Отзывы наших клиентов о курсе

География наших клиентов

  • Москва
  • Санкт-Петербург
  • Нижний Новгород
  • Екатеринбург
  • Казань
  • Краснодар
  • Красноярск
  • Перьм
  • Челябинск
  • Новосибирск
  • Томск
  • Тверь
  • Саратов
  • Самара
  • Ростов-на-Дону
  • Хабаровск
  • Волгоград
  • Калуга
  • Якутск
  • Севастополь
  • Тольяти
  • Владивоссток
  • Тюмень
  • Южно-Сахалинск
  • Уфа
  • Ставрополь
  • Минск
  • Алматы
  • Астана
  • Ташкент
  • Душанбе
  • Бешкек
Если у Вас остались вопросы Вы можете позвонить к нам по телефону +7 (495) 414-11-21  или заполнить форму обратной связи на сайте.
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту