Администрирование кластера Hadoop

Курсы обучения онлайн и в классе для администраторв Hadoop http://bifdataschool.ru
Ближайшая дата курса  10-14 декабря
   28-01 февраля 2019
Стоимость обучения    90.000 рублей

курсы обучения Hadoop и машинного обучения

5 дней практического обучения установке и настройке кластера Hadoop, безопасность Kerberos, Apache Sentry, Cloudera Navigator, мониторинг, репликация и резервное копирование,  взаимодействие с компонентами экосистемы Hadoop: Spark, Hive, sqoop, HDFS, MapReduce.

Аудитория: Системные администраторы, системные архитекторы, разработчики Hadoop желающие получить практические навыки по установке, конфигурированию, обслуживанию и управлению кластером Hadoop с использованием дистрибутива Cloudera и Cloudera Manager.

Предварительный уровень подготовки:

  • Начальный опыт работы в Unix, опыт работы с текстовым редактором vi (желателен)

Продолжительность: 5 дней, 40 академических часов.

Apache Hadoop является наиболее популярной открытой платформой для распределенных вычислений. Данный курс содержит информацию по планированию и развертыванию распределенных вычислительных кластеров на базе Hadoop, мониторингу и оптимизации производительности системы, резервному  копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройки безопасности системы Kerberos  на базе Hadoop.

Курс построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре; использования компонент Hadoop для запуска задач распределенных вычислений с  тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов Cloudera Distributed Hadoop и программного обеспечения управления кластером Cloudera Manager.

Соотношение теории к практике 40/60

Программа курса

  1. Введение в Big Data
    • Что такое Big Data. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • Формирование Data Lake
  2. Архитектура Apache Hadoop
    • Hadoop сервисы и основные компоненты. Name node. Data Node. YARN сервис
    • Планировщик
    • HDFS
    • Отказоустойчивость и высокая доступность
  3. Hadoop Distributed File System
    • Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS
    • Дисковые квоты
    • Поддержка компрессии
    • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
    • Импорт(загрузка) данных на HDFS
  4. MapReduce
    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce
  5. Дизайн кластера Hadoop
    • Сравнение дистрибутивов и версий Hadoop 2/3 (Cloudera Distributed Hadoop, MapR, HortonWorks Data Platform): различия и ограничения
    • Требования программного и аппаратного обеспечения
    • Планирование кластера
    • Масштабирование кластера Hadoop. Отказоустойчивость Hadoop
    • Federated NameNode. Hadoop в облаке. Сравнение Cloud решений для Hadoop. Amazon EMR
  6. Установка кластера
    • Установка Hadoop кластера
    • Выбор начальной конфигурации
    • Оптимизация уровня ядра для узлов
    • Начальная конфигурация HDFS и MapReduce
    • Файлы логов и конфигураций
    • Установка Hadoop кластера в облаке
    • Выбор вендора и хостинга
    • Установка с использованием виртуального образа
  7. Операции обслуживания кластера Hadoop
    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск
    • Управление узлами
    • Сетевая топология
    • Настройка высокой доступности кластера и обновлений
  8. Оптимизация и управление ресурсами
    • Поиск узких мест.
    • Производительность
    • Файловая система
    • Data Node
    • Сетевая производительность
    • Планировщики: FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
  9. Управление кластером Hadoop с использованием Cloudera Manager
    • Установка Cloudera Manager
    • Основные операции и задачи Cloudera Manager
    • Мониторинг с Cloudera Manager
    • Диагностика и разрешение проблем с Cloudera Manager
  10. Безопасность Hadoop
    • Безопасность по умолчанию
    • Многопользовательский режим
    • Аутентификация и авторизация: Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop
    • Обзор возможностей Apache Sentry, Cloudera Navigator
    • Резервное копирование и аварийное восстановление
    • Репликация данных и snapshoting
    • Конфигурирование высокой доступности Name node (HA)
    • Компоненты безопасности Hadoop
    • Best practices
  11. Мониторинг
    • Apache Zookeeper
    • Встроенные средства мониторинга Cloudera Manager
    • Логи сервисов и компонент
    • Внешние системы мониторинга: Zabbix, JMX, GrafanaNagios, Ganglia
  12. Troubleshooting
    • Data Node
    • Name Node
    • Восстановление Name Node
  13. Инструментарий Hadoop экосистемы
    • Графический интерфейс сервиса HUE
    • Подключение Cloudera Data Science Workbench
    • Введение Apache Zookeeper
    • Введение Apache Pig — установка и выполнение базовых операций
    • Введение в Apache Hive, понятие Hive таблицы, установка Hive
    • Введение в Apache sqoop — установка и выполнение базовых операций
    • Введение в Apache Flume — установка и выполнение базовых операций
    • Введение в Apache Spark — установка и выполнение базовых операций
    • Обзор и назначение компонент: Cloudera Impala, Apache HBase, Apache Kafka

Примерный список практических занятий:
• Ручная установка кластера Hadoop с дистрибутива Cloudera Distributed Hadoop на локальной системе -узловый кластер
• Установка 3х-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager
• Базовые операции с кластером Hadoop и файловые операции HDFS.
• Управление ресурсами и запуском задач с использованием YARN MapReduce.
• Управление кластером с использованием Cloudera Manager(развертывание сервисов, репликация, мониторинг, alerting и т.д.)
• Настройка аутентификации Kerberos для кластера Hadoop под управление Cloudera Manager
• Установка и выполнение базовых операций в Apache Hive, Apache sqoop, Apache Flume, Apache Spark
• Выполнение задач в веб-интерфейсе HUE
• Настройка мониторинга кластера Hadoop с использованием Zabbix (опционально)
• Настройка высокой доступности Name Node (опционально).

Примечание:
• Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу)
• Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

курсы обучения Hadoop и машинного обучения

Скачать программу курса «Администрирование кластера Hadoop» в формате pdf