Все курсы
AIRFLOW с использованием Yandex Managed Service for Apache Airflow™
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
YARF | 27 мая 2024 19 июня 2024 |
72 000 руб. | 24 ак.часов | Дистанционный |
Регистрация |
3-хдневный курс обучения по Airflow позволит вам получить и систематизировать знания по использованию этого фреймворка для разработки, планирования и мониторинга рабочих процессов с большими данными. Курс содержит расширенные сведения по установке распределенного кластера Apache Airflow, администрированию и интеграции этой платформы с другими технологиями Big Data в соответствии с лучшими практиками (best practices).
Что такое Yandex Managed Service for Apache Airflow™
Apache Airflow — это фреймворк управления рабочими процессами и расписанием задач. Он написан на Python, имеет открытый исходный код и позволяет создавать, планировать, запуска и отслеживать выполнение пакетных рабочих процессов (workflow). Эти рабочие процессы обработки данных обычно включают несколько задач и выполняются в заданном порядке. Сегодня Airflow стал одним из наиболее востребованных инструментов дата-инженера, он широко используется для автоматизации и оркестрации сложных рабочих процессов от аналитики данных до машинного обучения и ETL-процессов. Фреймворк применяется для загрузки данных из разных источников, вычислений, запуска ML-моделей, генерации отчетов и других вычислительных операций.
Благодаря настраиваемым конфигурациям и Python-скриптам Airflow очень гибкий и подходит для множества сценариев. Расширяемая архитектура фреймворка позволяет добавлять собственные операторы и подключать сторонние инструменты. Чтобы дата-инженер не тратил время на управление инфраструктурой Airflow, Яндекс выпустил Yandex Managed Airflow — полностью управляемый сервис. Он позволяет использовать все возможности фреймворка, фокусируясь на построении эффективных конвейеров обработки данных вместо заботы об инфраструктуре. Этот курс по AirFlow на платформе Yandex разработан специалистами Школы Больших Данных совместно с дата-инженерами Яндекса.
Программа курса AIRFLOW с использованием Yandex Managed Service for Apache Airflow™
Введение в Airflow
- Что такое Airflow?
- Почему Airflow?
- История создания
- Аналоги и конкуренты
- Airflow vs Oozie
- “Киты” Airflow
- Настройка образа в YandexCloud
Базовый Airflow
- Верхнеуровневая архитектура
- Компоненты: подробнее
- Executors
- LocalExecutor
- Схема учебного стенда
- DAG
- DAG: параметры
- Operators
- Operators: виды
- WEB UI: обзор
- Пайплайн по созданию DAG
- Dag: context
- Operator: основные параметры
- Composition
- EmptyOperator
- BashOperator
- Написание первого DAG
- TaskFlowApi
- PythonOperator
Практика № 1. Создание первого DAG, использование Python и Bash операторов, использование WebUI
Запуск DAG с ручной конфигурацией
Практика № 2. Написание DAG с ручной передачей параметров
- Переменные и их использование (Variables)
Практика № 3. Применение Variables, default_args
Практика № 4. Применение Variables расширенное
- Connections
- Sensors
Практика № 5. Применение fileSensor
- ExternalTaskSensor
Расширенный Airflow
Trigger Rules
Практика № 6. Использование fileSensor + triggerRules
- Backfill & catchup
- Templates
- Macros
- Yandex Managed Service for PostgreSQL
- Демонстрация ETL процесса на временном DataProc(Spark) кластере в Yandex Cloud
Практика № 7. Использование PostgresOperator, оркестрация ETL процесса
- Hooks
Практика № 8. Применение Hooks
- TaskGroup
- XCOM
- Dynamic Tasks
- XCOM vs Variable
Практика № 9. Финальная практика, включающая в себя все вышеизученное
Кому нужны курсы по Airflow
Наши курсы обучения по Airflow ориентированы на системных администраторов, инженеров данных (Data Engineer), архитекторов, DevOps-инженеров, разработчиков Hadoop и прочих Big Data систем.
Предварительный уровень подготовки:
- Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano)
- Базовый опыт программирования Python/bash
- Начальный опыт в экосистеме Apache Hadoop
- Средний опыт программирования SQL
Весь курс проводится на Yandex Managed Service for Apache Airflow™.
Продолжительность: 3 дня, 24 академических часа
Соотношение теории к практике 50/50
Программа курса «AIRFLOW с использованием Yandex Managed Service for Apache Airflow™»
Укажите e-mail, на который будет оправлена ссылка для скачивания файла:
Кто проводит курс
Карташов Андрей
Самарский государственный университет путей сообщения, ЭТФ, АСОиИУ,
(Самара, 2014)
Профессиональные компетенции:
- Разработчик Python/Data Engineer/Scala
- Сопровождение, интеграция данных с помощью Apache Hadoop (Hbase,Hdfs, Kafka, Spark, Hive)
- Администрирование RHEL
- Разработка на Python
- Работа с мониторингом (Zabbix)
- Data Engineer в ВымпелКом-ИТ
- Старший аналитик/Ведущий инженер по разработке в Сбер, Самара
Отзывы наших клиентов о курсе
География наших клиентов
- Москва
- Санкт-Петербург
- Нижний Новгород
- Екатеринбург
- Казань
- Краснодар
- Красноярск
- Перьм
- Челябинск
- Новосибирск
- Томск
- Тверь
- Саратов
- Самара
- Ростов-на-Дону
- Хабаровск
- Волгоград
- Калуга
- Якутск
- Севастополь
- Тольяти
- Владивоссток
- Тюмень
- Южно-Сахалинск
- Уфа
- Ставрополь
- Минск
- Алматы
- Астана
- Ташкент
- Душанбе
- Бешкек