
Практический курс Data Pipeline на Apache Airflow и Apache Hadoop
Ближайшая дата курса | 19 июля 2021 18 октября 2021 08 ноября 2021 |
|
Стоимость обучения | 54.000 руб. | Регистрация |
Код курса | AIRF |
3-хдневный практический курс Data Pipeline на Apache Airflow и Apache Hadoop для аналитиков и инженеров данных, архитекторов и специалистов по настройке и сопровождению потоков данных (Data Flow) в организации и озерах данных под управление Hadoop и AirFlow.
Что такое Apache Airflow и где это используется
Apache Airflow — это open-source набор библиотек для разработки, планирования и мониторинга рабочих процессов. Этот инструмент написан на языке программирования Python и позволяет создавать и настраивать цепочки задач как в визуальном режиме с помощью наглядного web-GUI, так и писать программный код на Python.
AirFlow принято называть ETL-средством для пакетов Big Data, он не является классической ETL-системой, а лишь помогает представить процесс извлечения-преобразования-загрузки данных в виде единого проекта на Python, чтобы удобно и эффективно управлять им.
На практике Apache Airflow используется в следующих случаях:
- интеграция множества информационных систем и данных из различных источников (внутренние и внешние базы, файловые хранилища, облачные приложения и пр.);
- загрузка информации в корпоративное озеро данных (Data Lake);
- организация уникальных конвейеров доставки и обработки больших данных (data pipeline);
- управление конфигурацией конвейеров данных как кодом в соответствии с DevOps-подходом;
- автоматизация разработки, планирования и мониторинга batch-процессов обработки Data Flow.
Все эти и другие примеры прикладного использования Apache Airflow для управления batch-процессами обработки больших данных разбираются в рамках нашего практического курса.
Кому нужны курсы по Airflow
Наши курсы обучения по Airflow ориентированы на системных администраторов, инженеров данных (Data Engineer), архитекторов, DevOps-инженеров, разработчиков Hadoop и прочих Big Data систем, которые хотят получить практические знания и навыки по работе с batch-процессами и конвейерами обработки больших данных:
- понять, что такое Apache Airflow;
- уяснить отличия Airfow от NiFi;
- освоить принципы работы с задачами, операторами и DAG’ами;
- научиться настраивать рабочее окружение для Airflow;
- освоить методы администрирования и мониторинга кластера Airflow;
- интегрировать Apache Aiflow с другими Big Data фреймворками (Hadoop, Spark) и внешними системами.
Предварительный уровень подготовки:
- Знание базовых команд Linux (опыт работы с командной строкой, файловой
системой , POSIX, текстовыми редакторами vi, nano) - Начальный опыт программирования Python/bash
- Начальный опыт в экосистеме Apache Hadoop
Как устроено обучение Apache Airflow
Продолжительность: 3 дня, 24 академических часа
Соотношение теории к практике 50/50
3-хдневный курс обучения по Airflow позволит вам получить и систематизировать знания по использованию этого фреймворка для разработки, планирования и мониторинга рабочих процессов с большими данными. Курс содержит расширенные сведения по установке распределенного кластера Apache Airflow, администрированию и интеграции этой платформы с другими технологиями Big Data в соответствии с лучшими практиками (best practices).
Вы изучите необходимый теоретический минимум, чтобы понять основные концепции этого инструмента и узнаете некоторые особенности управления кластером Airflow. Преподаватель курса по Apache Airflow подробно объяснит все тонкости установки, конфигурирования, мониторинга и прикладного использования этой Big Data системы, чтобы вы могли самостоятельно работать с ней в реальности.
На практике вы развернете собственный кластер Apache Airflow, настроив его конфигурацию, создадите свои сценарии и схемы пакетной обработки информации, реализовав собственный конвейер данных (data pipeline) и операторы DAG.
Программа курса Data Pipeline на Apache Airflow и Apache Hadoop
- Введение в AirFlow
- История появления, решаемые задачи, место в наборе инструментов по обработке данных
- Основные объекты (DAG, оператор и task, сенсор, объединение компонентов в DAG)
- Процесс исполнения (worker-ы и executor-ы, параллельное и последовательное исполнение)
- Планирование и график исполнения DAG
- Компоненты Airflow (scheduler, административный web-интерфейс)
- Алерты и логирование
- Переменные и xcomm
- Connection и работа с источниками данных
- Разработка Data Flow с Apache AirFlow
- Процесс создания DAG
- Основные операторы
- Создание (настройка) python и bash операторов
- Создание собственных операторов и сенсоров
- Использование connection
- Hooks и практические примеры использования
- xcomm и переменные: зачем нужны и что дают
- Возможности макроязыка (Jinja)
- Настройка расписания и его особенности
- Развертывание и настройка Airflow
- Установка Airflow в конфигурации по умолчанию (SQLite, SequentialExecutor)
- Основные параметры конфигурации
- Использование Celery executor
- Кластеризация (масштабируемость, отказоустойчивость)
- Особенности разработки и использования Airflow
- Отладка и тестирование
- Поиск информации в лог-файлах
- Нюансы встраивания Airflow в CI/CD конвейеры и системы управления версиями
- Airflow и Apache Spark
Практические занятия:
- Создание простых DAG
- Настройка python и bash операторов
- Разработка операторов и сенсоров
- Работа с источниками данных
- Взаимодействие с Apache Spark