ADH: Администрирование кластера Arenadata Hadoop

Курсы администрирования Hadoop> Курсы администрирования Arenadata Hadoop  в учебном центре «Школы Больших Данных»

курсы Аренадата, администрирование кластера Hadoop на примерах

Ближайшая дата курса по администрированию кластера Arenadata Hadoop 18-22 ноября
   
Стоимость обучения   90.000 рублей
Стоимость сертификационного экзамена   9.000 рублей

курсы по администрированию кластера Hadoop и машинного обучения5 дней авторизованного практического обучения администрированию кластера Hadoop, установке и настройке кластера Arenadata Hadoop под управлением Apache Ambari на платформе  отечественного дистрибутива с открытым кодом Arenadata Hadoop;

  • безопасность Kerberos;
  • мониторинг, репликация и резервное копирование;
  • взаимодействие с компонентами экосистемы Hadoop: Spark, Hive/Tez, sqoop, HDFS, MapReduce, HBase, Zookeeper, Ooozie.

Аудитория: Системные администраторы, системные архитекторы, разработчики Hadoop, желающие получить практические навыки по установке, конфигурированию, обслуживанию и администрированию кластера Hadoop с использованием дистрибутива  ArenaData Hadoop .

Предварительный уровень подготовки:

  • Опыт работы в Unix, опыт работы с текстовым редактором vi (желателен)

Продолжительность: 5 дней, 40 академических часов.

Arenadata Hadoop является наиболее популярной открытой платформой для распределенного хранения больших данных и параллельных вычислений. В рамках данного курса вы получите теоретические знания и практические опыт по:

  • планированию и развертыванию распределенных вычислительных кластеров Hadoop на базе дистрибутива Arenadata Hadoop,
  • мониторингу и оптимизации производительности системы,
  • резервному  копированию и аварийному восстановлению узлов кластера и отдельных компонент,
  • настройке безопасности системы Kerberos  на базе Hadoop.

Курс построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре; использования компонент Hadoop для запуска задач распределенных вычислений с  тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов Arenadata Hadoop и программного обеспечения Apache Ambari.

 

Соотношение теории к практике 40/60

Программа курса Администрирование кластера Arenadata Hadoop

  1. Введение в Big Data и администрирование кластера Arenadata Hadoop

    • Что такое Big Data. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • Принципы формирование pipelines и Data Lake
  2. Архитектура Arenadata Hadoop

      • Hadoop сервисы и основные компоненты. Name node. Data Node.
      • YARN сервис
      • HDFS
      • Отказоустойчивость и высокая доступность
  3. Hadoop Distributed File System

    • Архитектура HDFS. Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS
    • Дисковые квоты
    • Поддержка компрессии
    • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
    • Импорт(загрузка) данных на HDFS
    • Организация Tiering для хранения данных
    • Архивное хранение HDFS
    • Локальное чтение и распределенное кэширование
  4. Map Reduce

    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce
  5. Дизайн кластера Hadoop

    • Сравнение дистрибутивов и версий Hadoop 2/3 (HortonWorks Data Platform, Cloudera Distributed Hadoop, MapR, Arenadata Hadoop): различия и ограничения.
    • Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. Federated NameNode. Hadoop в облаке.
    • Сравнение Cloud решений для Hadoop. Amazon EMR.
    • Интеграция с другими решениями: streaming (DataFlow), NoSQL
  6. Установка кластера

    • Установка Hadoop кластера. Выбор начальной конфигурации
    • Оптимизация уровня ядра для узлов
    • Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций
    • Установка Hadoop клиентов. Установка Hadoop кластера в облаке.
    • Автоматическая установка
    • Установка и настройка кластера Hadoop в изолированном окружении (offline).
  7. Операции обслуживания кластера Hadoop

    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск
    • Управление узлами
    • Управление обновлениями и создание локального репозитория.
  8. Оптимизация и управление ресурсами

    • Поиск узких мест.
    • Производительность. Файловая система. Data Node. Сетевая производительность
    • Планировщики: FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
    • Особенности управления ресурсами для разных дистрибутивов
  9. Управление кластером Hadoop с использованием Apache Ambari

    • Установка Apache Ambari
    • Интерфейс управления Apache Ambari
    • Базовые операции обслуживания и управление задачами с использованием Apache Ambari
    • Диагностика и trobleshooting с Apache Ambari
    • Использование Ambari View для управления кластером
  10. Безопасность Hadoop

    • Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива  Arenadata Hadoop: Apache Ranger, Apache Atlas, Apache Knox.
    • Многопользовательский режим. Аутентификация и авторизация. Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа.
    • Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).
    • Best practices  Arenadata Hadoop
  11. Мониторинг и администрирование кластера Hadoop

    • Встроенные средства мониторинга Apache Ambari Metrics, Grafana
    • Логи сервисов и компонент
    • Внешние системы мониторинга: Zabbix, JMX
  12. Troubleshooting

    • Data Node
    • Name Node
    • Восстановление Name Node
  13. Инструментарий Hadoop экосистемы дистрибутива  Arenadata Hadoop

    • Графический интерфейс сервиса Ambari Views/ HUE.
    • Использование Apache Pig для ETL преобразований .
    • Введение в Apache Hive, понятие Hive таблицы, установка Hive.
    • Импорт и экспорт SQL данных с применением Apache sqoop.
    • Работа с потоковыми данными с использованием Apache Flume.
    • Обзор и назначение компонент: Apache Kafka, Apache HBase, Apache NiFi, Apache Spark, Apache Zookeeper, Apache Oozie

Примерный список практических занятий курса по Администрированию кластера Arenadata Hadoop:

  • Ручная установка кластера Hadoop с дистрибутива Arenadata Hadoop на локальной системе 3х-узловый кластер
  • Установка 3-узлового кластера в облаке Amazon Web Services с использованием Apache Ambari
  • Базовые операции с кластером Hadoop и файловые операции HDFS.
  • Управление ресурсами и запуском задач с использованием YARN MapReduce.
  • Администрирование кластера с использованием Apache Ambari  (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
  • Настройка аутентификации Kerberos для кластера Hadoop под управление Apache Ambari
  • Установка и выполнение базовых операций в Apache Hive, Apache sqoop, Apache Flume
  • Выполнение задач в веб-интерфейсе Ambari Views/ HUE
  • Мониторинг кластера Hadoop с использованием Zabbix (опционально)
  • Настройка высокой доступности Name Node (опционально).

Примечание:

  • Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу)
  • Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

Для регистрации на курсы администрирования Arenadata Hadoop заполните  форму по ссылке внизу или позвоните по телефону +7 (915) 307-00-74

курсы по администрированию кластера Hadoop и машинного обучения

Скачать программу курса «Администрирование кластера Arenadata Hadoop» в формате pdf