
Практический курс Hadoop для инженеров данных – обучение Big Data
Ближайшая дата курса | 12 апреля 2021 07 июня 2021 06 сентября 2021 |
|
Стоимость обучения | 90.000 руб. | Регистрация |
Код курса | HDDE |
5-дневный практический тренинг по batch/streaming обработке потоков данных средствами Apache Airflow, Spark, Flume, Kafka, Sqoop, Hive для организации озера данных (Data Lake) на кластере Hadoop версии 3 и процессов ETL/ELT.
Что такое Data Lake и зачем это нужно бизнесу
Data Lake (озеро данных) – это метод хранения данных в натуральном (сыром, “RAW”) виде: в разных схемах и форматах, от blob-объектов до различных файлов. Корпоративное озеро данных позволяет предприятию иметь логически определенное, единое хранилище всех данных в организации (enterprise data), чтобы использовать их для построения аналитических отчетов, моделей машинного обучения и других прикладных задач.
Обычно Data Lake включает структурированную информацию из реляционных баз данных (строки и колонки), полуструктурированные файлы (CSV, логи, XML, JSON, AVRO, Parquet, ORC), неструктурированные (почтовые сообщения, документы, pdf) и даже бинарные данные (видео, аудио, графические изображения). Помимо необработанных исходных данных (RAW data), озеро данных также может содержать и предварительно обработанную (transformed) информацию.
За эффективную организацию процессов загрузки информации в озеро или корпоративное хранилище данных (КХД) и выгрузки оттуда нужных сведений отвечают инженеры данных (Data Engineer). Сегодня в большинстве случаев Data Lake строится с помощью компонентов экосистемы Apache Hadoop и сопутствующих технологий Big Data: Spark, Pig, Sqoop, Hive, Flume, Flink, Airflow, NiFi, Kafka, Cloudera Impala. Как успешно использовать все эти инструменты для создания уникального конвейера сбора и обработки данных (pipeline), вы узнаете на нашем 5-дневном обучающем курсе-тренинге “Hadoop для инженеров данных”.
Кому нужно обучение по Data Lake
Курс Hadoop для инженеров данных ориентирован на специалистов по работе с большими данными, которые отвечают за настройку и сопровождение ввода данных в Data Lake и хотят получить теоретические знания и практические навыки по подготовке массивов Big Data и специфике процессов ETL/ELT в кластерах Hadoop. Также на нашем курсе Data Engineer освоит тонкости организации pipelines в Hadoop, Batch, stream и real–time процессинга больших данных с использованием компонентов экосистемы Хадуп.
Предварительный уровень подготовки:
- Знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)
- Начальный опыт работы с SQL
Что представляют собой курсы Hadoop для инженеров данных
Продолжительность: 5 дней, 40 академических часов
Соотношение теории к практике 40/60
Данный курс включает теоретические знания и практические навыки планирования, формирования и сопровождения Hadoop Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания конвейеров данных (pipelines) из традиционных источников: корпоративные базы данных, web-логи, файловые системы, интернет, транзакции и пр. для последующего анализа больших данных.
На практике вы будете использовать выделенный кластер Hadoop в облаке Amazon Web Services (AWS) на базе дистрибутива Cloudera Data Platform (CDP) Private Cloud ( замена дистрибутива HortonWorks) или Arenadata Hadoop. Создадите свой data pipeline с помощью Apache Spark, Airflow, Sqoop, Hive, Flume, NiFi, Kafka. Изучите особенности импорта/экспорта данных и построения распределенных Big Data систем потоковой обработки событий (Event Processing System) на базе Apache Kafka.
Примечание: с 1 января 2021 года данный курс проводится в объединенном формате по дистрибутивам Hadoop версии 3 компаний Cloudera . Для корпоративного формата обучения возможна выделенная программа по одной версии дистрибутива Hadoop (уточняйте у менеджера).
Успешно окончив курс Hadoop для инженеров данных в нашем лицензированном учебном центре «Школа Больших Данных», вы получите сертификат или удостоверение установленного образца, которые могут засчитываться в качестве свидетельств о повышении квалификации.
Программа курса Hadoop для инженеров данных
- Основные концепции Hadoop и Data Lake
- Основы Hadoop. Жизненный цикл аналитики больших данных. Хранение, накопление, подготовка и процессинг больших данных. Тенденции развития Hadoop.
- Организация хранения данных в Hadoop Data Lake
- Архитектура HDFS. Операции чтения и записи, назначения HDFS. Блоки HDFS. Основные команды работы с HDFS.
- Ведение в MapReduce. Компоненты MapReduce. Работа программы MapReduce. Архитектура YARN. Способы обработки распределенных данных с использованием Apache Spark, YARN и MapReduce v2/v3.
- Управление ресурсами и очередями задач. FIFO/Capacity/Fair scheduler.
- Инструменты управления кластером
- Выполнение базовых операций с Cloudera Manager.
- Создание и управление запросами и данными с использованием сервиса Hue/Zeppelin.
- Хранение данных в HDFS
- Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVRO, ORC, Parquet.
- Организация и оптимизация Data Layout хранения данных в HDFS
- Импорт/экспорт данных в кластер Hadoop – формирование Data Lake
- Импорт и обработка данных в кластере Hadoop
- Интеграция с реляционными базами данных
- Структура хранения данных в таблицах
- Сравнительная характеристика решений Hadoop SQL
- Введение в Sqoop: импорт и экспорт данных Sqoop, формат файлов, инкрементальный импорт
- Введение в Apache Spark
- Архитектура и состав Apache Spark
- Основные абстракции (Dataframe, RDD)
- Spark SQL
- Ввод и вывод данных в Apache Spark
- Spark Streaming.
- Обработка слабо структурированных данных.
- Apache Hive
- Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов, работа с внешними и внутренними таблицами Hive, оптимизация Join операций. Операции импорта и экспорта данных и взаимодействия с внешними источниками. Настройка производительности
- Hive LLAP, Hive on Tez
- Cloudera Impala (опционально)
- Введение в Cloudera Impala: архитектура и компоненты, Impala синтаксис, типы данных, написание запросов, загрузка данных, взаимодействие Spark, Hive
- Оптимизация Impala запросов
- Потоковые данные в Data Lake
- Event Processing System. Импорт потоковых данных в кластер
- Использование Kafka для работы с потоковыми данными
- Использование Flume для работы с потоковыми данными (опционально только для версии 2)
- Интеграция Flume + Kafka
- Процессинг данных с использование Apache NiFi
- Оркестрация данных с Apache Airflow
Cписок практических занятий :
- Выполнение первоначальной настройки и базовых операций с кластером Hadoop и файловой системой HDFS
- Управление очередями ресурсами и запуском задач с использованием YARN
- Использование Apache Pig для подготовки данных, операции JOIN (опционально версия 2)
- Инкрементальный импорт/экспорт данных с помощью Apache Sqoop
- Использование Apache Hive для анализа данных
- Оптимизация запросов JOIN в Apache Hive
- Настройка partition и bucket в Apache Hive
- SQL аналитика данных с помощью Cloudera Impala
- Подготовка и анализ данных с использованием Apache Spark
- Импорт данных с помощью Apache Flume (опционально версия 2)
- Построение Event Processing System с использованием Apache Flume и Kafka
- Создание и управление запросами Hive, Impala с использованием веб-интерфейса HUE/Zeppelin (Демо)
- Построение Dataflow с использованием Apache NiFi (опционально)
- Построение Workflow с использованием Apache Airflow