Основы Hadoop

Ближайшая дата курса  10-12 декабря
   28-30 января 2019
Стоимость обучения    54.000 рублей

курсы обучения Hadoop и машинного обучения

3x дневный  курс по основам Hadoop, базовые установка и настройка кластера Hadoop в облаке, основные операции с файловой системой HDFS, запуск задач и управление ресурсами MapReduce и YARN,  взаимодействие с компонентами экосистемы Hadoop: Spark, Hive, sqoop, Flume.

Курс «Основы Hadoop» представляет сокращенную версию курса «Администрирование кластера Hadoop»  и проводится параллельно с данным курсом по программе 3 дня согласно утвержденной программе на платформе Cloudera или HortonWorks по выбору.

Аудитория: Системные администраторы, системные архитекторы, разработчики Hadoop желающие получить теоретические знания и практические навыки по установке, настройке и использованию кластера Hadoop с использованием дистрибутивов Cloudera и HortonWorks.

Предварительный уровень подготовки:

  • Начальный опыт работы в Unix, опыт работы с текстовым редактором vi

Продолжительность: 5 дней, 24 академических часа.

Данный курс содержит базовые сведения по установке и настройке кластер Hadoop, выполнению основных операций в файловой системе HDFS, запуска задач MapReduce, основам управления ресурсами Hadoop с помощью планировщика задач YARN и знакомит слушателей с концепциями использования Hadoop и компонент экосистемы Hadoop (MapReduce, Apache Hive, Apache Pig, Apache Flume, Apache Sqoop и Apache Spark) для организации хранения больших данных и процессинга.

Курс построен на сквозных практических примерах с тренировочными наборами данных, для запуска batch и потоковых (streaming)  задач в Hadoop кластере развернутого в облачной инфраструктуре Amazone Web Services с использованием дистрибутивов Cloudera Distributed Hadoop или HortonWorks HDP, а также программного обеспечения управления кластером Cloudera Manager или Apache Ambari.

Соотношение теории к практике 50/50

Программа курса

  1. Основы Hadoop и Big Data
    • Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределенных вычислений Hadoop. Концепция Data Lake.
  2. Архитектура Apache Hadoop
    • Hadoop сервисы и основные компоненты: Name node. Data Node. YARN. HDFS.
    • Отказоустойчивость и высокая доступность.
    • Batch процессинг.
    • Потоковая обработка
  3. Распределенная файловая система HDFS
    • Основы HDFS: Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Дисковые квоты.
    • Архитектура HDFS. Управление репликацией. Политики гибридного хранения данных HDFS.
    • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы. Кодеки компрессии.
    • Импорт(загрузка) данных на HDFS
  4. MapReduce
    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce.
  5. Установка кластера
    • Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoop кластера в облаке.
  6. Архитектура YARN
    • Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность.
    • FIFO scheduler
    • Capacity scheduler (Планировщик по мощности)
    • Fair scheduler (Гранулярное управление ресурсами)
    • Защита очередей и доминантное управление ресурсами DRF
  7. Инструментарий Hadoop экосистемы
    • Графический интерфейс сервиса HUE
    • Введение Apache Pig
    • Введение в Apache Hive, понятие Hive таблицы, установка Hive
    • Введение в Apache sqoop — установка и выполнение базовых операций
    • Введение в Apache Flume — установка и выполнение базовых операций
    • Введение в Apache Spark — установка и выполнение базовых операций

Примерный список практических занятий для курса «Основы Hadoop»:

  • Установка 3х-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari
  • Базовые операции с кластером Hadoop и файловые операции HDFS
  • Управление ресурсами и запуском задач с использованием YARN и MapReduce
  • Установка и выполнение базовых операций в Apache Pig
  • Установка и выполнение базовых операций в Apache Hive
  • Установка и выполнение базовых операций в Apache sqoop
  • Установка и выполнение базовых операций в Apache Flume(опционально)
  • Установка и выполнение базовых операций в Apache Spark
  • Выполнение задач в веб-интерфейсе HUE/Zeppelin (опционально)

Примечание:
• Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу)
• Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

курсы обучения Hadoop и машинного обучения Скачать программу курса «Основы Hadoop» в формате pdf