HADM: Администрирование кластера Hadoop

Курсы администрирования Hadoop> курсы Администрирования HortonWorks> курсы администрирования Cloudera>Курсы администрирования Аренадата Hadoop  в учебном центре «Школы Больших Данных»

курсы Аренадата, администрирование кластера Hadoop на примерах курсы Big Data в Москве от школы больших данных
Ближайшая дата курса по администрированию кластера Hadoop 8-12 июля
  23-27 сентября
  18-22 ноября
Стоимость обучения    90.000 рублей

курсы по администрированию кластера Hadoop и машинного обучения

5 дней практического обучения Администрирования Hadoop, установке и настройке кластера Hadoop под управлением Apache Ambari на платформе HortonWorks Data Platform или Arenadata Hadoop;

  • безопасность Kerberos, Apache Ranger, Atlas, Knox;
  • мониторинг, репликация и резервное копирование;
  • взаимодействие с компонентами экосистемы Hadoop: Spark, Hive/Tez, sqoop, HDFS, MapReduce, Zeppelin, NiFi.

Примечание: с 1 января 2019 года данный курс проводится в объединенном формате по дистрибутивам Hadoop версии 2  компаний Cloudera/HortonWorks/ArenaData на выбор для пользователей. Для корпоративного формата обучения возможна выделенная программа по одной версии дистрибутива Hadoop (уточняйте у менеджера).

Аудитория: Системные администраторы, системные архитекторы, разработчики Hadoop, желающие получить практические навыки по установке, конфигурированию, обслуживанию и администрированию кластера Hadoop с использованием дистрибутива  HortonWorks или ArenaData Hadoop  по выбору.

Предварительный уровень подготовки:

  • Начальный опыт работы в Unix, опыт работы с текстовым редактором vi (желателен)

Продолжительность: 5 дней, 40 академических часов.

Apache Hadoop является наиболее популярной открытой платформой для распределенного хранения больших данных и параллельных вычислений. В рамках данного курса вы получите теоретические знания и практические опыт по администрированию кластера Hadoop, планированию и развертыванию распределенных вычислительных кластеров на базе Hadoop на базе дистрибутива HortonWorks Data Platform, мониторингу и оптимизации производительности системы, резервному  копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройки безопасности системы Kerberos  на базе Hadoop.

Курсы по администрированию кластера Hadoop построен на сквозных практических примерах развертывания и администрированию кластера Hadoop, в том числе, в облачной инфраструктуре; использования компонент Hadoop для запуска задач распределенных вычислений с  тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов Аренадата Hadoop/HortonWorks Data Platform  программного обеспечения Apache Ambari.

 

Соотношение теории к практике 40/60

Программа курса

  1. Введение в Big Data и администрированию кластера Hadoop

    • Что такое Big Data. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • Принципы формирование pipelines и Data Lake
  2. Архитектура Apache Hadoop

    • Hadoop сервисы и основные компоненты. Name node. Data Node. YARN сервис
    • Планировщик
    • HDFS
    • Отказоустойчивость и высокая доступность
  3. Hadoop Distributed File System

    • Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS
    • Дисковые квоты
    • Поддержка компрессии
    • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
    • Импорт(загрузка) данных на HDFS
  4. Map Reduce

    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce
  5. Дизайн кластера Hadoop

    • Сравнение дистрибутивов и версий Hadoop 2/3 (HortonWorks Data Platform, Cloudera Distributed Hadoop, MapR, Arenadata Hadoop): различия и ограничения.
    • Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. Federated NameNode. Hadoop в облаке.
    • Сравнение Cloud решений для Hadoop. Amazon EMR.
    • Интеграция с другими решениями: streaming (DataFlow), NoSQL
  6. Установка кластера

    • Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoop кластера в облаке.
    • Автоматическая установка.
    • Установка и настройка кластера Hadoop в изолированном окружении (offline).
  7. Операции обслуживания кластера Hadoop

    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск
    • Управление узлами
    • Сетевая топология
    • Управление обновлениями и создание локального репозитория.
  8. Оптимизация и управление ресурсами

    • Поиск узких мест.
    • Производительность
    • Файловая система
    • Data Node
    • Сетевая производительность
    • Планировщики: FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
  9. Управление кластером Hadoop с использованием Apache Ambari

    • Установка Apache Ambari
    • Интерфейс управления Apache Ambari
    • Базовые операции обслуживания и управление задачами с использованием Apache Ambari
    • Диагностика и trobleshooting с Apache Ambari.
  10. Безопасность Hadoop

    • Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива HortonWorks/ Arenadata Hadoop: Apache Ranger, Apache Atlas, Apache Knox.
    • Многопользовательский режим. Аутентификация и авторизация. Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа.
    • Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).
    • Best practices HortonWorks / Arenadata Hadoop.
  11. Мониторинг и администрирование кластера Hadoop

    • Apache Zookeeper
    • Встроенные средства мониторинга Apache Ambari Metrics
    • Логи сервисов и компонент
    • Внешние системы мониторинга: Zabbix, JMX
    • Apache Grafana
  12. Troubleshooting

    • Data Node
    • Name Node
    • Восстановление Name Node
  13. Инструментарий Hadoop экосистемы дистрибутива HortonWorks/ Arenadata Hadoop

    • Графический интерфейс сервиса Zeppelin.
    • Использование Apache Pig для ETL преобразований .
    • Введение в Apache Hive/Tez, понятие Hive таблицы, установка Hive/Tez.
    • Импорт и экспорт SQL данных с применением Apache sqoop.
    • Работа с потоковыми данными с использованием Apache Flume.
    • Выполнение базовых операций в Apache Spark.
    • Обзор и назначение компонент: Apache Kafka, Apache HBase, Apache NiFi, Apache Flink, Apache Zookeeper.

Примерный список практических занятий курса по Администрированию кластера Hadoop:

  • Ручная установка кластера Hadoop с дистрибутива HortonWorks Data Platform/Arenadata Hadoop на локальной системе 3х-узловый кластер
  • Установка 3-узлового кластера в облаке Amazon Web Services с использованием Apache Ambari
  • Базовые операции с кластером Hadoop и файловые операции HDFS.
  • Управление ресурсами и запуском задач с использованием YARN MapReduce.
  • Администрирование кластера с использованием Apache Ambari (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
  • Настройка аутентификации Kerberos для кластера Hadoop под управление Apache Ambari
  • Установка и выполнение базовых операций в Apache Hive, Apache sqoop, Apache Flume, Apache Spark
  • Выполнение задач в веб-интерфейсе Zeppelin
  • Мониторинг кластера Hadoop с использованием Zabbix (опционально)
  • Настройка высокой доступности Name Node (опционально).

Примечание:

  • Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу)
  • Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

Для регистрации на курсы администрирования Hadoop вам нужно заполнить  форму по ссылке внизу или позвонить по телефону +7 (915) 307-00-74

курсы администрированию кластера Hadoop, курсы администрирования HortonWorks,курсы администрирования Cloudera,курсы администрирования Аренадата

Скачать программу курса «Администрирование кластера Hadoop HortonWorks» в формате pdf