Курс Data pipeline на Apache AirFlow и Arenadata Hadoop

3-хдневный авторский практический курс по построению конвейеров обработки больших данных для аналитиков и инженеров данных, архитекторов и специалистов по настройке и сопровождению потоков данных (Data Flow) в организации и озерах данных под управлением Arenadata Hadoop и Apache AirFlow.

Что такое Apache Airflow, Arenadata Hadoop и где это используется

Apache Airflow — это open-source набор библиотек для разработки, планирования и мониторинга рабочих процессов. Этот инструмент написан на языке программирования Python и позволяет создавать и настраивать цепочки задач как в визуальном режиме с помощью наглядного web-GUI, так и писать программный код на Python.

Apache AirFlow принято называть ETL-средством для пакетов Big Data, но он не является ETL-системой, а лишь помогает оркестрировать процесс извлечения-преобразования-загрузки данных в виде единого проекта на Python (Workflow), чтобы удобно и эффективно управлять им.

На практике Apache Airflow используется в следующих случаях:

интеграция множества информационных систем и данных из различных источников (внутренние и внешние базы, файловые хранилища, облачные приложения и пр.);
загрузка информации в корпоративное озеро данных (Data Lake);
организация уникальных конвейеров доставки и обработки больших данных (data pipeline);
управление конфигурацией конвейеров данных как кодом в соответствии с DevOps-подходом;
автоматизация разработки, планирования и мониторинга batch-процессов обработки Data Flow.

Arenadata Hadoop (ADH) – это отечественный дистрибутив распределенной платформы хранения и обработки больших данных на базе Apache Hadoop, адаптированный для корпоративного использования и зарегистрированный в государственном реестре программ для ЭВМ. Он включает множество технологий Big Data для хранения и аналитики больших данных, в т.ч. Apache Spark, Livy и Zeppelin, которые и рассматриваются в настоящем курсе в связке с AirFlow. Apache Airflow также входит в дистрибутив Arenadata Hadoop версии 2. Благодаря комплексному составу и российскому происхождению, ADH отлично подходит для проектов цифровизации государственных и муниципальных предприятий, а также активно используется многими частными компаниями России и СНГ.

В этом практико-ориентированном курсе мы фокусируемся на использовании Apache Airflow для построения конвейеров обработки больших данных в среде Arenadata Hadoop 2.1, а процесс разработки происходит в среде Apache Zeppelin.

Программа курса

Кому нужны курсы по Airflow и Arenadata Hadoop

Наши курсы обучения по Apache Airflow и Arenadata Hadoop ориентированы на инженеров данных (Data Engineer), системных архитекторов, DevOps-инженеров, разработчиков Hadoop и прочих Big Data систем, которые хотят получить практические знания и навыки по разработке эффективных конвейеров обработки больших данных. В процессе курса вы сможете:

понять, что такое Apache Airflow;
освоить принципы работы с задачами, операторами и DAG’ами;
научиться разрабатывать конвейеры обработки данных;
интегрировать Apache Aiflow с Apache Spark с использованием Apache Livy.

Предварительный уровень подготовки:

Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano)
Начальный опыт программирования Python/bash
Опыт работы с Apache Hadoop или прослушанный курс: ADHI: Основы Arenadata Hadoop или INTR: Основы Hadoop

Регистрация

Как устроено обучение Apache Airflow и Arenadata Hadoop

Продолжительность: 3 дня, 24 академических часа.

Соотношение теории к практике 40/60

3х—дневный курс обучения по Apache Airflow и Arenadata Hadoop позволит вам получить и систематизировать знания по использованию этих фреймворков для разработки эффективных конвейеров обработки больших данных. Курс содержит расширенные сведения по вопросам разработки на Apache Airflow и интеграции этой платформы с Apache Spark и Livy в соответствии с лучшими практиками (best practices).

Вы изучите необходимый теоретический минимум, чтобы понять основные концепции этого инструмента и узнаете способы эффективной интеграции Apache Airflow и Apache Spark. В результате вы сможете самостоятельно построить собственный конвейер обработки больших данных (data pipeline) с использованием инструментария, предоставляемого дистрибутивом Arenadata Hadoop. Преподаватель курса по Apache Airflow и Arenadata Hadoop подробно объяснит все тонкости установки, конфигурирования, мониторинга и прикладного использования этих Big Data систем, чтобы вы могли в дальнейшем успешно работать с ними.
На практике вы разработаете собственный конвейер обработки данных на связке Apache Airflow + Spark + Livy, максимально эффективно используя возможности параллельной обработки, предоставляемые кластером Arenadata Hadoop и фреймворком параллельной обработки больших данных Apache Spark.

Узнать больше

Программа курса «Построение эффективных конвейеров обработки данных с Apache Airflow и Arenadata Hadoop»

Знакомство с Airflow

История появления, решаемые задачи, место в наборе инструментов по обработке данных
Основные объекты (DAG, оператор и task, сенсор, объединение компонентов в DAG)
Процесс исполнения (worker-ы и executor-ы, параллельное и последовательное исполнение)
Планирование и график исполнения DAG
Компоненты Airflow (scheduler, административный web интерфейс)
Алерты и логирование
Переменные и xcomm
Connection и работа с источниками данных
Конфигурация Airflow

Разработка конвейеров обработки данных

Процесс создания DAG
Основные операторы
Создание (настройка) python и bash операторов
Создание собственных операторов и сенсоров
Использование connection
Hooks и практические примеры использования
xcomm и переменные: зачем нужны и что дают
Возможности макроязыка (Jinja)
Настройка расписания и его особенности

Основы Hadoop

Проблематика «больших данных»
Основные компоненты Hadoop
Хранение и работа с данными в Hadoop
Дистрибутив Аренадата Hadoop
Apache Zeppelin и вопросы практического использования компонентов дистрибутива

Знакомство с Apache Spark

Архитектура и компоненты фреймворка
Работа в Apache Zeppelin
Основные абстракции (Dataframe, RDD)
Работа с источниками данных и Spark SQL
Конвейерная обработка данных с использованием Apache Spark

Основы Apache Livy

Архитектура Apache Livy
Предоставляемый REST API

Интеграция Airflow с Apache Spark/Livy

Архитектура конвейера обработки данных
Пример реализации конвейера обработки данных на Аренадата Hadoop

Практические занятия:

Создание простых DAG
Настройка python и bash операторов
Разработка операторов и сенсоров
Взаимодействие с Apache Spark & Livy

[download_after_email id="8615"]

Если у Вас остались вопросы Вы можете позвонить к нам по телефону +7 (495) 414-11-21 или заполнить форму обратной связи на сайте.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.