ADH: Администрирование кластера Arenadata Hadoop

Курсы администрирования Hadoop> Курсы администрирования Arenadata Hadoop  в учебном центре «Школы Больших Данных»

курсы Аренадата, администрирование кластера Hadoop на примерах

Ближайшая дата курса по администрированию кластера Arenadata Hadoop по запросу
   
Стоимость обучения   90.000 рублей
Стоимость сертификационного экзамена   9.000 рублей

Регистрация5 дней авторизованного практического обучения администрированию кластера Hadoop, установке и настройке кластера Arenadata Hadoop под управлением Apache Ambari на платформе  отечественного дистрибутива с открытым кодом Arenadata Hadoop;

  • безопасность Kerberos;
  • мониторинг, репликация и резервное копирование;
  • взаимодействие с компонентами экосистемы Hadoop: Spark, Hive/Tez, sqoop, HDFS, MapReduce, HBase, Zookeeper, Ooozie.

Аудитория: Системные администраторы, системные архитекторы, разработчики Hadoop, желающие получить практические навыки по установке, конфигурированию, обслуживанию и администрированию кластера Hadoop с использованием дистрибутива  Arenadata Hadoop .

Предварительный уровень подготовки:

  • Опыт работы в Unix, опыт работы с текстовым редактором vi (желателен)

Продолжительность: 5 дней, 40 академических часов.

Arenadata Hadoop является наиболее популярной открытой платформой для распределенного хранения больших данных и параллельных вычислений. В рамках данного курса вы получите теоретические знания и практические опыт по:

  • планированию и развертыванию распределенных вычислительных кластеров Hadoop на базе дистрибутива Arenadata Hadoop,
  • мониторингу и оптимизации производительности системы,
  • резервному  копированию и аварийному восстановлению узлов кластера и отдельных компонент,
  • настройке безопасности системы Kerberos  на базе Hadoop.

Курс построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре; использования компонент Hadoop для запуска задач распределенных вычислений с  тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов Arenadata Hadoop и программного обеспечения Apache Ambari.

 

Соотношение теории к практике 40/60

Программа курса Администрирование кластера Arenadata Hadoop

  1. Введение в Big Data и администрирование кластера Arenadata Hadoop

    • Что такое Big Data. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • Принципы формирование pipelines и Data Lake
  2. Архитектура Arenadata Hadoop

      • Hadoop сервисы и основные компоненты. Name node. Data Node.
      • YARN сервис
      • HDFS
      • Отказоустойчивость и высокая доступность
  3. Hadoop Distributed File System

    • Архитектура HDFS. Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS
    • Дисковые квоты
    • Поддержка компрессии
    • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
    • Импорт(загрузка) данных на HDFS
    • Организация Tiering для хранения данных
    • Архивное хранение HDFS
    • Локальное чтение и распределенное кэширование
  4. Map Reduce

    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce
  5. Дизайн кластера Hadoop

    • Сравнение дистрибутивов и версий Hadoop 2/3 (HortonWorks Data Platform, Cloudera Distributed Hadoop, MapR, Arenadata Hadoop): различия и ограничения.
    • Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. Federated NameNode. Hadoop в облаке.
    • Сравнение Cloud решений для Hadoop. Amazon EMR.
    • Интеграция с другими решениями: streaming (DataFlow), NoSQL
  6. Установка кластера

    • Установка Hadoop кластера. Выбор начальной конфигурации
    • Оптимизация уровня ядра для узлов
    • Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций
    • Установка Hadoop клиентов. Установка Hadoop кластера в облаке.
    • Автоматическая установка
    • Установка и настройка кластера Hadoop в изолированном окружении (offline).
  7. Операции обслуживания кластера Hadoop

    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск
    • Управление узлами
    • Управление обновлениями и создание локального репозитория.
  8. Оптимизация и управление ресурсами

    • Поиск узких мест.
    • Производительность. Файловая система. Data Node. Сетевая производительность
    • Планировщики: FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
    • Особенности управления ресурсами для разных дистрибутивов
  9. Управление кластером Hadoop с использованием Apache Ambari

    • Установка Apache Ambari
    • Интерфейс управления Apache Ambari
    • Базовые операции обслуживания и управление задачами с использованием Apache Ambari
    • Диагностика и trobleshooting с Apache Ambari
    • Использование Ambari View для управления кластером
  10. Безопасность Hadoop

    • Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива  Arenadata Hadoop: Apache Ranger, Apache Atlas, Apache Knox.
    • Многопользовательский режим. Аутентификация и авторизация. Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа.
    • Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).
    • Best practices  Arenadata Hadoop
  11. Мониторинг и администрирование кластера Hadoop

    • Встроенные средства мониторинга Apache Ambari Metrics, Grafana
    • Логи сервисов и компонент
    • Внешние системы мониторинга: Zabbix, JMX
  12. Troubleshooting

    • Data Node
    • Name Node
    • Восстановление Name Node
  13. Инструментарий Hadoop экосистемы дистрибутива  Arenadata Hadoop

    • Графический интерфейс сервиса Ambari Views/ HUE.
    • Использование Apache Pig для ETL преобразований .
    • Введение в Apache Hive, понятие Hive таблицы, установка Hive.
    • Импорт и экспорт SQL данных с применением Apache sqoop.
    • Работа с потоковыми данными с использованием Apache Flume.
    • Обзор и назначение компонент: Apache Kafka, Apache HBase, Apache NiFi, Apache Spark, Apache Zookeeper, Apache Oozie

Примерный список практических занятий курса по Администрированию кластера Arenadata Hadoop:

  • Ручная установка кластера Hadoop с дистрибутива Arenadata Hadoop на локальной системе 3х-узловый кластер
  • Установка 3-узлового кластера в облаке Amazon Web Services с использованием Apache Ambari
  • Базовые операции с кластером Hadoop и файловые операции HDFS.
  • Управление ресурсами и запуском задач с использованием YARN MapReduce.
  • Администрирование кластера с использованием Apache Ambari  (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
  • Настройка аутентификации Kerberos для кластера Hadoop под управление Apache Ambari
  • Установка и выполнение базовых операций в Apache Hive, Apache sqoop, Apache Flume
  • Выполнение задач в веб-интерфейсе Ambari Views/ HUE
  • Мониторинг кластера Hadoop с использованием Zabbix (опционально)
  • Настройка высокой доступности Name Node (опционально).

Примечание:

  • Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу)
  • Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

Для регистрации на курсы администрирования Arenadata Hadoop заполните  форму по ссылке внизу или позвоните по телефону +7 (915) 307-00-74

РегистрацияСкачать программу курса «Администрирование кластера Arenadata Hadoop» в формате pdf