HDDE: Курс Hadoop для инженеров данных

Практический курс Hadoop для инженеров данных – обучение Big Data

Ближайшая дата курса
06 декабря 2021
07 февраля 2022
Стоимость обучения 90.000 руб. Регистрация
Код курса HDDE

5-дневный практический тренинг по batch/streaming обработке потоков данных средствами Apache AirflowSpark, FlumeKafka, Sqoop, Hive  для организации озера данных (Data Lake) на кластере Hadoop версии 3 и процессов ETL/ELT.

Что такое Data Lake и зачем это нужно бизнесу

Data Lake (озеро данных) – это метод хранения данных в натуральном (сыром, “RAW”) виде: в разных схемах и форматах, от blob-объектов до различных файлов. Корпоративное озеро данных позволяет предприятию иметь логически определенное, единое хранилище всех данных в организации (enterprise data), чтобы использовать их для построения аналитических отчетов, моделей машинного обучения и других прикладных задач.

Обычно Data Lake включает структурированную информацию из реляционных баз данных (строки и колонки), полуструктурированные файлы (CSV, логи, XML, JSON, AVRO, Parquet, ORC), неструктурированные (почтовые сообщения, документы, pdf) и даже бинарные данные (видео, аудио, графические изображения). Помимо необработанных исходных данных (RAW data), озеро данных также может содержать и предварительно обработанную (transformed) информацию.

За эффективную организацию процессов загрузки информации в озеро или корпоративное хранилище данных (КХД) и выгрузки оттуда нужных сведений отвечают инженеры данных (Data Engineer). Сегодня в большинстве случаев Data Lake строится с помощью компонентов экосистемы Apache Hadoop и сопутствующих технологий Big Data: Spark, Pig, Sqoop, Hive, Flume, Flink, Airflow, NiFi, Kafka, Cloudera Impala. Как успешно использовать все эти инструменты для создания уникального конвейера сбора и обработки данных (pipeline), вы узнаете на нашем 5-дневном обучающем курсе-тренинге “Hadoop для инженеров данных”.

 

 

Кому нужно обучение по Data Lake

Курс Hadoop для инженеров данных ориентирован на специалистов по работе с большими данными, которые отвечают за настройку и сопровождение ввода данных в Data Lake и хотят получить теоретические знания и практические навыки по подготовке массивов Big Data и специфике процессов ETL/ELT в кластерах Hadoop. Также на нашем курсе Data Engineer освоит тонкости организации pipelines в Hadoop, Batch, stream и realtime процессинга больших данных с использованием компонентов экосистемы Хадуп.

Предварительный уровень подготовки:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)
  • Начальный опыт работы с SQL

Что представляют собой курсы Hadoop для инженеров данных

Продолжительность: 5 дней, 40 академических часов

Соотношение теории к практике 40/60

Данный курс  включает теоретические знания и практические навыки планирования, формирования и сопровождения Hadoop Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания конвейеров данных (pipelines) из традиционных источников: корпоративные базы данных, web-логи, файловые системы, интернет, транзакции и пр.  для последующего анализа больших данных.

На практике вы будете использовать выделенный кластер Hadoop в облаке Amazon Web Services (AWS) на базе дистрибутива Cloudera Data Platform (CDP) Private Cloud ( замена дистрибутива HortonWorks) или Arenadata Hadoop. Создадите свой data pipeline с помощью Apache Spark, Airflow, Sqoop, Hive, Flume, NiFi, Kafka. Изучите особенности импорта/экспорта данных и построения распределенных Big Data систем потоковой обработки событий (Event Processing System) на базе Apache Kafka.

Примечание: с 1 января 2021 года данный курс проводится в объединенном формате по дистрибутивам Hadoop версии 3  компаний Cloudera . Для корпоративного формата обучения возможна выделенная программа по одной версии дистрибутива Hadoop (уточняйте у менеджера).

Успешно окончив курс Hadoop для инженеров данных в нашем лицензированном учебном центре «Школа Больших Данных»вы получите сертификат или удостоверение установленного образца, которые могут засчитываться в качестве свидетельств о повышении квалификации.

 

 

Программа курса Hadoop для инженеров данных

  1. Основные концепции Hadoop и Data Lake
    • Основы Hadoop. Жизненный цикл аналитики больших данных. Хранение, накопление, подготовка и процессинг больших данных.  Тенденции развития Hadoop.
    • Организация хранения данных в Hadoop Data Lake 
    • Архитектура HDFS. Операции чтения и записи, назначения HDFS. Блоки HDFS. Основные команды работы с HDFS.
    • Ведение в MapReduce. Компоненты MapReduce. Работа программы MapReduce. Архитектура YARN. Способы обработки распределенных данных с использованием Apache Spark, YARN и MapReduce v2/v3.
    • Управление ресурсами и очередями задач. FIFO/Capacity/Fair scheduler.
  2. Инструменты управления кластером
    • Выполнение базовых операций с Cloudera Manager.
    • Создание и управление запросами и данными с использованием сервиса Hue/Zeppelin.
  3. Хранение данных в HDFS
    • Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVRO, ORC, Parquet.
    • Организация и оптимизация Data Layout хранения данных в HDFS
  4. Импорт/экспорт  данных в кластер Hadoop – формирование Data Lake
    • Импорт и обработка данных в кластере Hadoop
    • Интеграция с реляционными базами данных
    • Структура хранения данных в таблицах
    • Сравнительная характеристика решений Hadoop SQL
    • Введение в Sqoop: импорт и экспорт данных Sqoop, формат файлов, инкрементальный импорт
  5. Введение в Apache Spark
    • Архитектура и состав Apache Spark
    • Основные абстракции (Dataframe, RDD)
    • Spark SQL
    • Ввод и вывод данных в Apache Spark
    • Spark Streaming.
    • Обработка слабо структурированных данных.
  6. Apache Hive
    • Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов,  работа с внешними и внутренними таблицами Hive, оптимизация Join операций. Операции импорта и экспорта данных и взаимодействия с внешними источниками. Настройка производительности
    • Hive LLAP, Hive on Tez
  7. Cloudera Impala (опционально)
    • Введение в Cloudera Impala: архитектура и компоненты, Impala синтаксис, типы данных, написание запросов, загрузка данных, взаимодействие  Spark, Hive
    • Оптимизация Impala запросов
  8. Потоковые данные в Data Lake
    • Event Processing System. Импорт потоковых данных в кластер
    • Использование Kafka для работы с потоковыми данными
    • Использование Flume  для работы с потоковыми данными (опционально только для версии 2)
    • Интеграция Flume + Kafka
    • Процессинг данных с использование Apache NiFi
    • Оркестрация данных с Apache Airflow

Cписок практических занятий :  

  • Выполнение первоначальной настройки и базовых операций с кластером Hadoop и файловой системой HDFS
  • Управление очередями ресурсами и запуском задач с использованием YARN 
  • Использование Apache Pig для подготовки данных, операции JOIN (опционально версия 2)
  • Инкрементальный импорт/экспорт данных с помощью Apache Sqoop
  • Использование Apache Hive для анализа данных
  • Оптимизация запросов JOIN в Apache Hive
  • Настройка partition и bucket в Apache Hive
  • SQL аналитика данных с помощью Cloudera Impala
  • Подготовка и анализ данных с использованием  Apache Spark
  • Импорт данных с помощью Apache Flume (опционально версия 2)
  • Построение Event Processing System с использованием Apache Flume и Kafka
  • Создание и управление запросами Hive, Impala с использованием веб-интерфейса HUE/Zeppelin (Демо)
  • Построение Dataflow с использованием Apache NiFi (опционально)
  • Построение Workflow с использованием Apache Airflow

 

 

Программа курса «Hadoop для инженеров данных»

Скачать программу курса «Hadoop для инженеров данных» в формате pdf

Отправить ссылку на: