HADM: Администрирование кластера Hadoop

Курсы обучения онлайн и в классе для администраторв Hadoop http://bifdataschool.ru

Курс администрирование кластера Hadoop

Ближайшая дата курса администрирования кластера Hadoop Cloudera Manager/HortonWorks/Arenadata 23-27 сентября
  18-22 ноября
   
Стоимость обучения    90.000 рублей

курсы администрирование кластера Hadoop

5 дней практического обучения установке и настройке кластера Hadoop, безопасность Kerberos, Apache Sentry, Cloudera Navigator, Apache Ambari, Apache Ranger, Apache Atlas, Apache KNOX, мониторинг, репликация и резервное копирование,  взаимодействие с компонентами экосистемы Hadoop: Spark, Hive, sqoop, HDFS, MapReduce.

Примечание: с 1 января 2019 года данный курс «Администрирование кластера Hadoop» проводится в объединенном формате по дистрибутивам Hadoop версии 2  компаний Cloudera/HortonWorks/ArenaData на выбор для пользователей. Для корпоративного формата обучения возможна выделенная программа по одной версии дистрибутива Hadoop (уточняйте у менеджера).

Аудитория: Системные администраторы, системные архитекторы, разработчики Hadoop, желающие получить практические навыки по установке, конфигурированию, обслуживанию, управлению и администрирование кластера Hadoop с использованием дистрибутива Cloudera и Cloudera Manager/ HortonWorks/ Аренадата Hadoop.

Предварительный уровень подготовки:

  • Начальный опыт работы в Unix
  • Опыт работы с текстовым редактором vi (желателен)

Продолжительность: 5 дней, 40 академических часов.

О курсе 

Apache Hadoop является наиболее популярной открытой платформой для распределенных вычислений. Данный курс содержит информацию по планированию и развертыванию распределенных вычислительных кластеров на базе дистрибутивов Hadoop, мониторингу и оптимизации производительности системы, резервному  копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройки безопасности системы Kerberos ( Active Directory и MIT/FreeIPA)   на базе Hadoop.

Курс администрирование кластера Hadoop построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре, использования компонент Hadoop для запуска задач распределенных вычислений с  тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов Cloudera Distributed Hadoop/ HortonWorks и Аренадата Hadoop(российский дистрибутив Hadoop в рамках программы  импортозамещения)  и программного обеспечения управления кластером Cloudera Manager/ Аренадата Hadoop / HortonWorks.

Соотношение теории к практике 40/60

Программа курса «Администрирование кластера Hadoop»

  1. Введение в Big Data

    • Что такое Big Data. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • ПринципыФормирование Data Lake и pipelines
  2. Архитектура Apache Hadoop

    • Hadoop сервисы и основные компоненты. Name node. Data Node.
    • YARN сервис — планировщик
    • HDFS
    • Отказоустойчивость и высокая доступность
  3. Hadoop Distributed File System

    • Архитектура HDFS. Блоки HDFS.
    • Основные команды работы с HDFS.
    • Операции чтения и записи, назначения HDFS
    • Дисковые квоты. Поддержка компрессии
    • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
    • Импорт (загрузка) данных на HDFS
    • Организация Tiering для хранения данных
    • Архивное хранение HDFS
    • Локальное чтение и распределенное кэширование
  4. Map Reduce

    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2/3
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce
  5. Дизайн кластера Hadoop

    • Сравнение дистрибутивов и версий Hadoop 2/3 (Cloudera Distributed Hadoop, MapR, HortonWorks Data Platform, Arenadata Hadoop): различия и ограничения
    • Требования программного и аппаратного обеспечения
    • Планирование кластера
    • Масштабирование кластера Hadoop. Отказоустойчивость Hadoop
    • Federated NameNode. Hadoop в облаке.
    • Сравнение Cloud решений для Hadoop. Amazon EMR
    • Интеграция с другими решениями: streaming (DataFlow), NoSQL.
  6. Установка кластера

    • Установка Hadoop кластера
    • Выбор начальной конфигурации
    • Оптимизация уровня ядра для узлов
    • Начальная конфигурация HDFS и MapReduce
    • Файлы логов и конфигураций
    • Установка Hadoop клиентов
    • Установка Hadoop кластера в облаке
    • Автоматические варианты установки
    • Установка и настройка кластера Hadoop в изолированном окружении (offline).
  7. Операции обслуживания кластера Hadoop

    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск(Graceful Shutdown)
    • Управление узлами
    • Управление обновлениями и создание локального репозитория
  8. Оптимизация и управление ресурсами

    • Поиск узких мест.
    • Производительность. Файловая система. Data Node и data layout и партиционирование, bucketing
    • Планировщики: FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
    • Особенности управления ресурсами для разных дистрибутивов
  9. Управление кластером Hadoop с использованием Cloudera Manager/Apache Ambari

    • Установка Cloudera Manager/Apache Ambari
    • Основные операции и задачи Cloudera Manager/Apache Ambari
    • Мониторинг с Cloudera Manager/Apache Ambari/ Grafana
    • Диагностика и разрешение проблем с Cloudera Manager/Apache Ambari
  10. Безопасность Apache Hadoop

    • Безопасность по умолчанию
    • Многопользовательский режим
    • Аутентификация и авторизация с использованием Active Directory(Microsoft), REALM MIT/FreeIPA: Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop
    • Обзор возможностей Apache Sentry, Cloudera Navigator, Apache Ambari, Apache Ranger, Apache Knox, Apache Atlas
    • Резервное копирование и аварийное восстановление
    • Репликация данных и snapshoting.Конфигурирование высокой доступности Name node (HA)
    • Компоненты безопасности Hadoop
    • Best practices Cloudera / HortonWorks/Cloudera/ArenaData
  11. Мониторинг Apache Hadoop

    • Apache Zookeeper
    • Встроенные средства мониторинга Cloudera Manager/Apache Ambari
    • Логи сервисов и компонент
    • Внешние системы мониторинга: Zabbix, JMX, Grafana
  12. Troubleshooting

    • Data Node
    • Name Node
    • Восстановление Name Node
  13. Инструментарий Apache Hadoop экосистемы

    • Графический интерфейс сервиса HUE
    • Подключение Cloudera Data Science Workbench
    • Назначение  Apache Zookeeper
    • Основы Apache Pig — установка и выполнение базовых операций
    • Введение в Apache Hive, понятие Hive таблицы, установка Hive
    • Использование Apache sqoop — установка и выполнение базовых операций
    • Базовые операции Apache Flume — установка и выполнение базовых операций
    • Обзор и назначение компонент: Cloudera ImpalaApache NiFi,  Apache HBase, Apache Kafka, Apache Zookeeper, Apache Oozie

Примерный список практических занятий:
Ручная установка кластера Hadoop с дистрибутива Cloudera Distributed Hadoop/HortonWorks/Аренадата Hadoop на локальной системе 3-узловый кластер
Установка 3-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari
Базовые операции с кластером Hadoop и файловые операции HDFS.
Управление ресурсами и запуском задач с использованием YARN MapReduce/Tez.
Управление кластером с использованием Cloudera Manager/Apache Ambari(развертывание сервисов, репликация, мониторинг, alerting и т.д.)
Конфигурирование системы аутентификации Kerberos для кластера Hadoop под управление Cloudera Manager/Apache Ambari
Установка и выполнение базовых операций в Apache Hive, Apache sqoop, Apache Flume
Выполнение задач в веб-интерфейсе HUE/Apache Ambari View
Мониторинг кластера Hadoop с использованием Zabbix (опционально)
HA высокая доступность( High Availablility) Name Node и YARN (ресурс менеджер) .

Примечание:
Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу)
Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

курсы администрирование кластера  Hadoop с использованием Cloudera Manager

Скачать программу курса программа курса по Администрированию кластера Hadoop в формате pdf

INTR: Основы Hadoop