HADM: Курс Администрирование кластера Arenadata Hadoop

Авторский курс администрирование кластера Arenadata Hadoop

Ближайшая дата курса
18 июля 2022
05 сентября 2022
28 ноября 2022
Стоимость обучения 100 000 руб. Регистрация
Длительность обучения 40 ак.часов
Код курса HADM

5 дней практического обучения работе с кластером Hadoop: установка и настройка,  обеспечение безопасности (Kerberos, Apache Ranger), мониторинг, репликация и резервное копирование,  взаимодействие с компонентами экосистемы Hadoop (Apache Spark, Hive, Sqoop, HBase), работа с HDFS и MapReduce.

О курсе “Администрирование кластера Hadoop”

Продолжительность: 5 дней, 40 академических часов.

Соотношение теории к практике 40/60

Сегодня Apache Hadoop является самой популярной открытой платформой для распределенных вычислений и главной технологией больших данных (Big Data). Данный курс для администраторов Big Data содержит всю необходимую теоретическую информацию и практические задания по планированию и развертыванию распределенных вычислительных кластеров на базе дистрибутивов Arenadata Hadoop версии 3. Рассматриваются процессы мониторинга и оптимизации производительности системы, резервному  копированию и аварийному восстановлению узлов кластера и отдельных компонент. Особое внимание уделено настройкам безопасности системы Kerberos (Active Directory и MIT/FreeIPA)   на базе Hadoop.

Курс администрирование кластера Hadoop построен на сквозных практических примерах развертывания и администрирования распределенной вычислительной среды: локально и в облачной инфраструктуре. Вы изучите особенности использования компонент Hadoop для запуска задач распределенных вычислений с  тестовыми данными. Практические занятия выполняются в кластерной среде Amazon Web Services/Yandex с использованием Apache Hadoop версии 3 на базе дистрибутива Arenadata Hadoop Community Edition (Cloudera Data Platform (CDP) Private Cloud) или Apache Hadoop , а также программного обеспечения управления кластером Arenadata Cluster Manager ADCM (Cloudera Manager)

Примечание: с 1 июля 2022 года данный курс проводится  по дистрибутиву Hadoop версии 3  Arenadata Hadoop Community Edition.

Для корпоративного формата обучения возможна выделенная программа по любой версии дистрибутива Hadoop (версия 2/3 , Arenadata, ванильный Apache Hadoop, Cloudera- уточняйте у менеджера).

 

 

Кому нужны курсы по администрированию Hadoop

Практический курс Администрирование кластера Hadoop предназначен для системных администраторов, архитекторов, DevOps-инженеров и разработчиков Big Data, которые хотят освоить прикладные навыки установки, конфигурирования, обслуживания, управления и администрирования кластера Hadoop на базе дистрибутивов Arenadata Hadoop и Arenadata Cluster Manager (ADCM).

Предварительный уровень подготовки:

  • Знание базовых команд и опыт работы в Linux (обязательно)
  • Опыт работы с любым текстовым редактором vi, nano

По окончании  курсов по администрированию Hadoop в нашем лицензированном учебном центре «Школа Больших Данных» вы получите сертификат или удостоверение установленного образца, которые могут засчитываться в качестве свидетельств о повышении квалификации.

 

 

Программа курса “Администрирование кластера Hadoop”

  1. Введение в Big Data
    • Что такое BigData. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • Принципы формирования Data Lake и pipelines
    • Схемы организации Data Lakes с использованием кластеров Hadoop, NoSQL и платформ потоковой обработки данных
  2. Архитектура Apache Hadoop
    • Hadoop сервисы и основные компоненты. Name node. DataNode.
    • YARN сервис-планировщик
    • Демоны HDFS
    • Отказоустойчивость и высокая доступность
  3. Hadoop Distributed File System
    • Архитектура HDFS. Блоки HDFS.
    • Основные команды работы с HDFS.
    • Операции чтения и записи, назначения HDFS
    • Дисковые квоты. Поддержка компрессии
    • Основные форматы хранения данных TXT, XML, JSON, AVRO, ORC, Parquet, Sequence файлы
    • Импорт (загрузка) данных на HDFS
    • Организация Tiering для хранения данных
    • Архивное хранение HDFS
    • Локальное чтение и распределенное кэширование
  4. Map Reduce
    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce 3
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce
  5. Дизайн кластера Hadoop
    • Сравнение дистрибутивов и версий Hadoop 2/3 (Arenadata Hadoop, Cloudera Distributed Hadoop CDP, Apache Hadoop): различия и ограничения
    • Требования программного и аппаратного обеспечения
    • Планирование кластера
    • Масштабирование кластера Hadoop.
    • Сравнение Cloud решений для Hadoop. Amazon EMR/ Yandex Cloud
    • Миграция данных и репликация данных
  6. Установка кластера Arenadata Hadoop
    • Оптимизация OS для узлов кластера
    • Установка Hadoop-кластера с использованием ADCM
    • Выбор начальной конфигурации
    • Начальная конфигурация HDFS и MapReduce
    • Файлы логов и конфигураций
    • Установка Hadoop клиентов
    • Установка Hadoop кластера в облаке
    • Автоматические варианты установки
    • Установка и настройка кластера Hadoop в изолированном окружении (offline).
  7. Операции обслуживания кластера Hadoop
    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск (Graceful Shutdown)
    • Управление узлами
    • Управление обновлениями и создание локального репозитория
  8. Оптимизация и управление ресурсами
    • Поиск узких мест
    • Производительность. Файловая система. Data Node и Data layout и партиционирование, bucketing
    • Планировщики: FIFO scheduler. Планировщик емкости (Capacity Scheduler). Гранулярное управление ресурсами (Fair Scheduler). Защита очередей и доминантное управление ресурсами DRF.
    • Особенности управления ресурсами для разных дистрибутивов
  9. Управление кластером Hadoop с использованием Arenadata Cluster Manager (Cloudera Manager)
    • Основные операции и задачи c использованием ADCM (ClouderaManager)
    • Мониторинг кластера. Работа с логами и сервисами
    • Диагностика и разрешение проблем с ADCM
    • Обзор Apache Zookeeper
  10. Безопасность Apache Hadoop
    • Безопасность по умолчанию
    • Многопользовательский режим
    • Аутентификация и авторизация с использованием Active Directory(Microsoft), REALM MIT/FreeIPA: Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop
    • Обзор возможностей компонент безопасности Apache Ranger, Apache Knox, Apache Atlas
    • Резервное копирование и аварийное восстановление
    • Репликация данных и snapshoting. Конфигурирование высокой доступности NameNode (HA)
    • Best practices Cloudera/ Arenadata
  11. Troubleshooting
    • Data Node
    • Name Node
    • Восстановление Name Node
  12. Инструментарий Apache Hadoop экосистемы
    • Графический интерфейс сервиса HUE/Zeppelin 
    • Основы  Apache Zookeeper
    • Введение в Hadoop SQL: Apache Hive, понятие Hive-таблицы, установка Hive
    • Использование Apache Sqoop – установка и выполнение базовых операций
    • Обзор и назначение компонент: Apache Spark, Apache Solr, Apache HBase, Apache Phoenix, Apache Airflow, Apache Flink

Примерный список практических занятий:

  • Установка кластера и настройка Arenadata Cluster Manager (ADCM)
  • Настройка оффлайн репозитория для установки кластера Arenadata Hadoop и RHEL/Centos
  • Ручная установка 3х-узлового кластера Hadoop версии 3 с дистрибутива Arenadata Cluster Manager (ADCM)  в облаке Amazon Web Services с использованием ADCM
  • Базовые операции с кластером Hadoop и файловые операции HDFS.
  • Управление ресурсами и запуском задач с использованием YARN, Map Reduce/Tez
  • Управление кластером с использованием Arenadata Cluster Manager (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
  • Настройка кластера мониторинга
  • Конфигурирование системы аутентификации Kerberos для кластера Hadoop под управление Arenadata Cluster Manager (опционально, по возможности)
  • Установка и выполнение базовых операций в Apache Hive, Apache Sqoop
  • Выполнение задач в веб-интерфейсе HUE/Apache Zeppelin
  • HA высокая доступность (High Availablility) NameNode ( опционально) и YARN (ресурс-менеджер) .

Примечание:
Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу).
Практические занятия с меткой (опционально) выполняются по желанию и при наличии технической возможности и свободного времени у слушателей

Возможно использование других версий дистрибутива для проведения курса для корпоративного формата обучения ( Cloudera Distributed Hadoop, Apache Hadoop, Arenadata Hadoop)

 

 

Программа курса по Администрированию кластера Hadoop

Скачать программу курса по Администрированию кластера Hadoop в формате pdf

Отправить ссылку на: