Все курсы
Практический курс Data Pipeline на Apache Airflow
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
AIRF | 22 мая 2024 28 августа 2024 |
72 000 руб. | 24 ак.часов | Дистанционный |
Регистрация |
3-дневный курс обучения по Airflow позволит вам получить и систематизировать знания по использованию самого популярного фреймворка для разработки, планирования и мониторинга пакетных рабочих процессов с большими данными. Курс содержит расширенные сведения по возможностям, которые предоставляет Apache Airflow для оркестрации сложных процессов и интеграции этой платформы с другими технологиями Big Data. Вы изучите полезные приемы дата-инженерии и лучшие практики (best practices) отрасли. Много практических заданий позволит закрепить полученные знания прямо на занятиях: проектируйте и реализуйте собственные workflow при поддержке опытного преподавателя!
Что такое Apache Airflow и где это используется
Airflow (Apache Airflow) — это открытая платформа для управления рабочими процессами и расписанием задач. Он позволяет создавать, планировать, запуска и отслеживать выполнение пакетных рабочих процессов (workflow). Эти рабочие процессы обработки данных обычно включают несколько задач и выполняются в заданном дата-инженером порядке.
Airflow используется для автоматизации и оркестрации сложных рабочих процессов в различных областях, таких как аналитика данных, обработка больших объемов данных, машинное обучение, ETL и интеграция данных. Он используется для загрузки данных из разных источников, вычислений, запуска моделей машинного обучения, генерации отчетов и других транзакционных и аналитических операций.
Благодаря настраиваемым конфигурациям и Python-скриптам Airflow очень гибкий и подходит для множества сценариев. Расширяемая архитектура фреймворка позволяет добавлять собственные операторы и подключать сторонние инструменты.
Сегодня Airflow очень широко используется в аналитике и инженерии данных, а также пользуется спросом у разработчиков.
Примеры прикладного использования Apache Airflow для управления процессами обработки больших данных разбираются в рамках нашего практического курса.
На практике Apache Airflow используется в следующих случаях:
- интеграция множества информационных систем и данных из различных источников (внутренние и внешние базы, файловые хранилища, облачные приложения и пр.);
- загрузка информации в корпоративное хранилище и озеро данных (Data Lake);
- реализация ETL-процессов;
- организация уникальных конвейеров доставки и обработки больших данных (data pipeline);
- управление конфигурацией конвейеров данных как кодом в соответствии с DevOps-подходом;
- автоматизация разработки, планирования и мониторинга batch-процессов обработки Data Flow.
Программа курса Data Pipeline на Apache Airflow
1. Введение в Airflow
- Что такое Airflow?
- Почему Airflow?
- История создания
- Аналоги и конкуренты
- Airflow vs Oozie
- “Киты” Airflow
- Настройка образа в YandexCloud
2. Базовый Airflow
- Верхнеуровневая архитектура
- Компоненты: подробнее
- Executors
- LocalExecutor
- Схема учебного стенда
- DAG
- DAG: параметры
- Operators
- Operators: виды
- WEB UI: обзор
- Пайплайн по созданию DAG
- Dag: context
- Operator: основные параметры
- Composition
- EmptyOperator
- BashOperator
- Написание первого DAG
- TaskFlowApi
- PythonOperator
Практика #1
- Запуск дага с ручной конфигурацией
Практика #2
- Variables
Практика #3
Практика #4
- Connections
- Sensors
Практика #5
- ExternalTaskSensor
3. Расширенный Airflow
- Trigger Rules
Практика #6
- Backfill & catchup
- Templates
- Macros
- PostgresOperator
- Hooks
Практика #7
- TaskGroup
- XCOM
- Dynamic Tasks
- XCOM vs Variable
Practice #8
Кому нужны курсы по Airflow
Наши курсы обучения по Airflow ориентированы на инженеров данных (Data Engineer), архитекторов, DevOps-инженеров и прочих Big Data систем.
Предварительный уровень подготовки:
- Знание базовых команд Linux (опыт работы с командной строкой, файловой
системой , POSIX, текстовыми редакторами vi, nano) - Базовый опыт программирования Python/bash
- Начальный опыт в экосистеме Apache Hadoop
- Средний опыт программирования SQL
Продолжительность: 3 дня, 24 академических часа
Соотношение теории к практике 50/50
Программа курса «AIRF: Data Pipeline на Apache Airflow»
Отправить ссылку на:
Кто проводит курс
Карташов Андрей
Самарский государственный университет путей сообщения, ЭТФ, АСОиИУ,
(Самара, 2014)
Профессиональные компетенции:
- Разработчик Python/Data Engineer/Scala
- Сопровождение, интеграция данных с помощью Apache Hadoop (Hbase,Hdfs, Kafka, Spark, Hive)
- Администрирование RHEL
- Разработка на Python
- Работа с мониторингом (Zabbix)
- Data Engineer в ВымпелКом-ИТ
- Старший аналитик/Ведущий инженер по разработке в Сбер, Самара
Отзывы наших клиентов о курсе
География наших клиентов
- Москва
- Санкт-Петербург
- Нижний Новгород
- Екатеринбург
- Казань
- Краснодар
- Красноярск
- Перьм
- Челябинск
- Новосибирск
- Томск
- Тверь
- Саратов
- Самара
- Ростов-на-Дону
- Хабаровск
- Волгоград
- Калуга
- Якутск
- Севастополь
- Тольяти
- Владивоссток
- Тюмень
- Южно-Сахалинск
- Уфа
- Ставрополь
- Минск
- Алматы
- Астана
- Ташкент
- Душанбе
- Бешкек