Курс Основы Hadoop

обучение Хадуп, основы Hadoop, практический курс по Apache Hadoop для начинающих

Курс Основы Hadoop

Ближайшая дата курса Основы Hadoop 01 — 03 июня 
  20 — 22 июля
   28 — 30 сентября
Стоимость обучения    54.000 рублей
Код курса    INTRO

курс Основы Hadoop и машинного обучения

3-дня практического обучения по установке, настройке и эксплуатации Apache Hadoop — основы Big Data для начинающих и специалистов. Практическое обучение Хадуп для системных администраторов, архитекторов и разработчиков Big Data.

Курс «Основы Hadoop» представляет сокращенную версию курса «Администрирование кластера Hadoop»  и проводится параллельно с данным курсом в 3 дня, согласно утвержденной программе, на платформе Cloudera, HortonWorks или ArenaData Hadoop  (по выбору).

Что такое Apache Hadoop и где это используется

Apache Hadoop — это основная технология хранения и обработки больших данных (Big Data), свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ на кластерах из сотен и тысяч узлов. Сегодня вокруг Apache Hadoop существует целая экосистема связанных проектов и технологий, которые используются для интеллектуального анализа больших данных (Data Mining), в том числе с помощью машинного обучения (Machine Learning) .

На практике Apache Hadoop используется во множестве компаний по всему миру для:

  • хранения множества информации в различных форматах;
  • сортировка огромных объемов данных и разбор содержимого чрезвычайно больших файлов;
  • аналитики поисковых запросов и пользовательских логов в высоконагруженных веб-сайтах и корпоративных информационных системах;
  • быстрая обработка графических данных.

Лучшие практики (best practices) и сценарии (use cases) прикладного использования Хадуп рассматриваются в нашем курсе «Основы Hadoop» от лицензированного учебного центра «Школа Больших Данных«.

Программа курса обучения

Для кого предназначен курс «Основы Hadoop»

Курс «Основы Hadoop» ориентирован на начинающих и опытных ИТ-специалистов в области больших данных, которые хотят получить теоретические знания и прикладные навыки по установке, настройке и использованию кластера Apache Hadoop на базе дистрибутивов Cloudera и HortonWorks. Практическое обучение Хадуп в «Школе Больших Данных» позволит системному администратору, архитектору и разработчику Big Data освоить следующие умения:

  • базовые установка и настройка кластера Hadoop в облаке
  • основные операции с файловой системой HDFS
  • запуск задач и управление ресурсами MapReduce и YARN
  • взаимодействие с компонентами экосистемы Hadoop: Spark, Hive, Sqoop, Flume.

Предварительный необходимый уровень подготовки:

  • Начальный опыт работы в Unix
  • Опыт работы с текстовым редактором vi, nano

По завершении курса «Основы Hadoop» вы получите сертификат повышения квалификации государственного образца.

курс Основы Hadoop, по большим данным и машинному обучению

Как организовано обучение Хадуп в «Школе Больших Данных»

Продолжительность: 3 дня, 24 академических часа.

Соотношение теории к практике 50/50

Практический курс  «Основы Hadoop» содержит базовые сведения по установке, настройке и эксплуатации кластера Hadoop. Обучение Хадуп в нашем учебном центре включает теоретический минимум, необходимый для эффективной практической работы с кластером Apache Hadoop. На курсе рассматриваются следующие темы:

  • выполнение основных операций в файловой системе HDFS;
  • запуск задач MapReduce;
  • основы управления ресурсами Hadoop с помощью планировщика задач YARN;
  • концепции использования Hadoop и компонентов экосистемы Хадуп (MapReduce, Apache Hive, Apache Pig, Apache Flume, Apache Sqoop и Apache Spark) для организации хранения больших данных и процессинга.

Курс построен на сквозных практических примерах с тренировочными наборами данных для запуска пакетных (batch) и потоковых (streaming) задач в Hadoop кластере. Для каждого слушателя предоставляются индивидуальные кластера в облачной инфраструктуре Amazon Web Services (AWS), чтобы вы освоили все концепции и понятия на практике. Какой именно дистрибутив Хадуп выбрать, решаете вы: Cloudera Distributed Hadoop, HortonWorks HDP или ArenaData Hadoop. Также на наших курсах обучения основам Hadoop вы познакомитесь с программным обеспечением по управлению кластером  Cloudera Manager или Apache Ambari (на выбор).

Примечание: с 1 января 2019 года данный курс проводится в объединенном формате по дистрибутивам Hadoop версии 2  компаний Cloudera/HortonWorks/ArenaData на выбор для пользователей. Для корпоративного формата обучения возможна выделенная программа по одной версии дистрибутива Hadoop (уточняйте у менеджера).

Программа курса «Основы Hadoop»

  1. Основы Hadoop и Big Data

    • Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределенных вычислений Hadoop. Концепция Data Lake.
  2. Архитектура Apache Hadoop

    • Hadoop сервисы и основные компоненты: Name node, Data Node, YARN, HDFS.
    • Отказоустойчивость и высокая доступность.
    • Batch процессинг.
    • Потоковая обработка
  3. Распределенная файловая система HDFS

    • Основы HDFS: Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Дисковые квоты.
    • Архитектура HDFS. Управление репликацией. Политики гибридного хранения данных HDFS.
    • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы.
    • Влияние компрессии на производительность. Кодеки компрессии.
    • Импорт(загрузка) данных на HDFS
  4. MapReduce

    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce.
  5. Установка кластера Hadoop

    • Установка Hadoop кластера.
    • Выбор начальной конфигурации.
    • Оптимизация уровня ядра для узлов.
    • Оптимизация Java, JVM, Heap size, Garbage Collection
    • Начальная конфигурация HDFS и MapReduce.
    • Файлы логов и конфигураций.
    • Настройка подключений Hadoop клиентов.
    • Установка кластера Hadoop в облаке.
    • Особенности настройки кластера Hadoop на физическом сервере (on-premises)
    • Топология кластера Hadoop
    • Tiering — многоуровневое хранение данных (Cold, Warm,Hot, RAM disk). Storage policy — полтиики хранения. Метки конфигураций узлов. RACK awareness.
  6. Архитектура YARN — планировщик и менеджер ресурсов

    • Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность.
    • FIFO scheduler
    • Capacity scheduler (Планировщик по мощности)
    • Fair scheduler (Гранулярное управление ресурсами)
    • Защита очередей и доминантное управление ресурсами DRF
  7. Инструментарий Hadoop экосистемы

    • Графический интерфейс сервиса HUE/Zeppelin
    • Базовые операции в  Apache Pig
    • Использование  Apache Hive для доступа к данным на HDFS  по SQL интерфейсу,  понятие Hive таблицы, HiveQL — базовый синтаксис.
    • Импорт и экспорт SQL таблиц с применением Apache sqoop
    • Настройка агентов для управления потоковыми операциями с Apache Flume
    • Базовые операции в Apache Spark

Примерный список практических занятий по курсу «Основы Hadoop»:

  • Установка 3х-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari
  • Базовые операции обслуживания кластера Hadoop и файловые операции HDFS
  • Управление ресурсами и запуском задач с использованием YARN и MapReduce
  • ETL операции преобразования с использованием Apache Pig
  • Знакомство с SQL интерфейсом доступа Apache Hive
  • Выполнение базовых операций  импорта/экспорта с применением Apache sqoop
  • Настройка агента потоковой обработки Apache Flume(опционально)
  • Применение веб-интерфейса HUE/Zeppelin (опционально)

Примечание:
• Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу)
• Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

курс Основы Hadoop, по большим данным и машинному обучению Скачать программу курса «Основы Hadoop» в формате pdf

Курс Администрирование кластера Hadoop