
Ближайшая дата курса | — |
Стоимость обучения | 48.000 рублей |
Код курса | ADH-AIR |
3-хдневный практический курс по построению конвейеров обработки больших данных для аналитиков и инженеров данных, архитекторов и специалистов по настройке и сопровождению потоков данных (Data Flow) в организации и озерах данных под управлением Arenadata Hadoop и Apache AirFlow.
Что такое Apache Airflow, Arenadata Hadoop и где это используется
Apache Airflow — это open-source набор библиотек для разработки, планирования и мониторинга рабочих процессов. Этот инструмент написан на языке программирования Python и позволяет создавать и настраивать цепочки задач как в визуальном режиме с помощью наглядного web-GUI, так и писать программный код на Python.
AirFlow принято называть ETL-средством для пакетов Big Data, он не является классической ETL-системой, а лишь помогает представить процесс извлечения-преобразования-загрузки данных в виде единого проекта на Python, чтобы удобно и эффективно управлять им.
На практике Apache Airflow используется в следующих случаях:
- интеграция множества информационных систем и данных из различных источников (внутренние и внешние базы, файловые хранилища, облачные приложения и пр.);
- загрузка информации в корпоративное озеро данных (Data Lake);
- организация уникальных конвейеров доставки и обработки больших данных (data pipeline);
- управление конфигурацией конвейеров данных как кодом в соответствии с DevOps-подходом;
- автоматизация разработки, планирования и мониторинга batch-процессов обработки Data Flow.
Arenadata Hadoop (ADH) – это отечественный дистрибутив распределенной платформы хранения и обработки больших данных на базе Apache Hadoop, адаптированный для корпоративного использования и зарегистрированный в государственном реестре программ для ЭВМ. Он включает множество технологий Big Data для хранения и аналитики больших данных, в т.ч. Apache Spark, Livy и Zeppelin, которые и рассматриваются в настоящем курсе в связке с AirFlow. Apache Airflow также входит в дистрибутив Arenadata Hadoop. Благодаря комплексному составу и российскому происхождению, ADH отлично подходит для проектов цифровизации государственных и муниципальных предприятий, а также активно используется многими частными компаниями России и СНГ.
В этом практико-ориентированном курсе мы фокусируемся на использовании Apache Airflow для построения конвейеров обработки больших данных в среде Arenadata Hadoop 2.1, а процесс разработки происходит в среде Apache Zeppelin.
Кому нужны курсы по Airflow и Arenadata Hadoop
Наши курсы обучения по Apache Airflow и Arenadata Hadoop ориентированы на инженеров данных (Data Engineer), системных архитекторов, DevOps-инженеров, разработчиков Hadoop и прочих Big Data систем, которые хотят получить практические знания и навыки по разработке эффективных конвейеров обработки больших данных. В процессе курса вы сможете:
- понять, что такое Apache Airflow;
- освоить принципы работы с задачами, операторами и DAG’ами;
- научиться разрабатывать конвейеры обработки данных;
- интегрировать Apache Aiflow с Apache Spark с использованием Apache Livy.
Предварительный уровень подготовки:
- Знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)
- Начальный опыт программирования Python/bash
- Начальный опыт в экосистеме Apache Hadoop
Как устроено обучение Apache Airflow и Arenadata Hadoop
Продолжительность: 3 дня, 24 академических часа.
Соотношение теории к практике 60/40
3-хдневный курс обучения по Apache Airflow и Arenadata Hadoop позволит вам получить и систематизировать знания по использованию этих фреймворков для разработки эффективных конвейеров обработки больших данных. Курс содержит расширенные сведения по вопросам разработки на Apache Airflow и интеграции этой платформы с Apache Spark и Livy в соответствии с лучшими практиками (best practices).
Вы изучите необходимый теоретический минимум, чтобы понять основные концепции этого инструмента и узнаете способы эффективной интеграции Apache Airflow и Apache Spark. В результате вы сможете самостоятельно построить собственный конвейер обработки больших данных (data pipeline) с использованием инструментария, предоставляемого дистрибутивом Arenadata Hadoop. Преподаватель курса по Apache Airflow и Arenadata Hadoop подробно объяснит все тонкости установки, конфигурирования, мониторинга и прикладного использования этих Big Data систем, чтобы вы могли в дальнейшем успешно работать с ними.
На практике вы разработаете собственный конвейер обработки данных на связке Apache Airflow + Spark + Livy, максимально эффективно задействуя возможности параллельной обработки, предоставляемые кластером Arenadata Hadoop и фреймворком параллельной обработки больших данных Apache Spark.
Программа курса «Построение эффективных конвейеров обработки данных с Apache Airflow и Arenadata Hadoop»
Часть 1: Apache Airflow
-
Знакомство с Airflow
- История появления, решаемые задачи, место в наборе инструментов по обработке данных
- Основные объекты (DAG, оператор и task, сенсор, объединение компонентов в DAG)
- Процесс исполнения (worker-ы и executor-ы, параллельное и последовательное исполнение)
- Планирование и график исполнения DAG
- Компоненты Airflow (scheduler, административный web интерфейс)
- Алерты и логирование
- Переменные и xcomm
- Connection и работа с источниками данных
- Конфигурация Airflow
-
Разработка конвейеров обработки данных
- Процесс создания DAG
- Основные операторы
- Создание (настройка) python и bash операторов
- Создание собственных операторов и сенсоров
- Использование connection
- Hooks и практические примеры использования
- xcomm и переменные: зачем нужны и что дают
- Возможности макроязыка (Jinja)
- Настройка расписания и его особенности
Часть 2: Airflow и BigData
-
Основы Hadoop
- Проблематика «больших данных»
- Основные компоненты Hadoop
- Хранение и работа с данными в Hadoop
- Дистрибутив Аренадата Hadoop
- Apache Zeppelin и вопросы практического использования компонентов дистрибутива
-
Знакомство с Apache Spark
- Архитектура и компоненты фреймворка
- Работа в Apache Zeppelin
- Основные абстракции (Dataframe, RDD)
- Работа с источниками данных и Spark SQL
- Конвейерная обработка данных с использованием Apache Spark
-
Основы Apache Livy
- Архитектура Apache Livy
- Предоставляемый REST API
-
Интеграция Airflow с Apache Spark/Livy
- Архитектура конвейера обработки данных
- Пример реализации конвейера обработки данных на Аренадата Hadoop
Практические занятия:
- Создание простых DAG
- Настройка python и bash операторов
- Разработка операторов и сенсоров
- Взаимодействие с Apache Spark & Livy