ADH: Администрирование кластера Arenadata Hadoop

Курс Администрирование кластера Arenadata Hadoop

Ближайшая дата курса
24 мая 2021
19 июля 2021
11 октября 2021
Стоимость обучения 144.000 руб. Регистрация
Стоимость сертификационного экзамена 9.000 рублей
Код курса ADH

5 дней авторизованного практического обучения для системных администраторов, администраторов кластеров, архитекторов и разработчиков Big Data по администрированию кластера Hadoop, установке и настройке кластера Arenadata Hadoop под управлением Arenadata Cluster Manager ADCM на платформе отечественного дистрибутива с открытым кодом Arenadata Hadoop версии 3;

  • безопасность Kerberos;
  • мониторинг, репликация и резервное копирование;
  • взаимодействие с компонентами экосистемы Hadoop: Spark, Hive/Tez, sqoop, HDFS, MapReduce, HBase, Zookeeper, AirFlow.

Что такое Arenadata Hadoop

Arenadata Hadoop(ADH) – это полноценный дистрибутив распределенной платформы хранения больших данных на базе Apache Hadoop, адаптированный для корпоративного использования и зарегистрированный в государственном реестре программ для ЭВМ. ADH позволит вам быстро и просто в автоматическом режиме развернуть безопасный отказоустойчивой кластер для хранения и обработки больших данных как локально, так и в «облаках».Благодаря средствам мониторинга и управления конфигурацией кластера вы сможете быстро оптимизировать производительность всех компонентов своей Big Dataсистемы.

Arenadata Hadoop является первой отечественной платформой Hadoop с открытым исходным кодом для распределенного хранения больших данных и параллельных вычислений. Благодаря регистрации продуктовArenadata в Едином реестре российских программ, эти решения соответствуют политике импортозамещения и отлично подходят для использования в проектах цифровизации государственных организаций и частных компаний РФ.

ArenaData Hadoop, Аренадата Хадуп

 

 

Как устроен курс по администрированию кластера Arenadata Hadoop

Продолжительность: 5 дней, 40 академических часов.

Соотношение теории к практике 40/60

Практический курс “Администрирование кластера Arenadata Hadoop” предназначен для системных администраторов, системных архитекторов и разработчиков Hadoop, которые хотят получить продвинутые навыки по установке, конфигурированию, обслуживанию и управлению кластером Hadoop с использованием дистрибутива Arenadata Hadoop.

Предварительный уровень подготовки:

  • Уверенное знание базовых команд Linux – опыт работы с командной строкой, файловой системой, POSIX , текстовыми редакторами vi, nano;

В рамках данного курса вы получите теоретические знания и практический опыт по:

  • планированию и развертыванию распределенных вычислительных кластеров Hadoop на базе дистрибутива Arenadata Hadoop версии 2 и консоли Arenadata Cluster Manager ADCM ,
  • мониторингу и оптимизации производительности системы,
  • резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент,
  • настройке безопасности системы Kerberos на базе Hadoop.

Курс построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре; использования компонент Hadoop для запуска задач распределенных вычислений с тестовыми данными. Практические занятия выполняются в кластерной среде Amazon Web Services с использованием дистрибутивов Arenadata Hadoop и программного обеспечения Arenadata Cluster Manager.

Программа курса “Администрирование кластера Arenadata Hadoop”

  1. Введение вBig Data и администрирование кластера Arenadata Hadoop
    • Что такое BigData. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • Принципы формирование pipelines и Data Lake
  2. Архитектура Arenadata Hadoop
    • Hadoop сервисы и основные компоненты. NameNode. DataNode.
    • YARN сервис
    • HDFS
    • Отказоустойчивость и высокая доступность
  3. Hadoop Distributed File System
    • Архитектура HDFS. Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS.
    • Дисковые квоты
    • Поддержка компрессии
    • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
    • Импорт(загрузка) данных на HDFS
    • Организация Tiering для хранения данных
    • Архивное хранение HDFS
    • Локальное чтение и распределенное кэширование
  4. Map Reduce
    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce
  5. Дизайн кластера Hadoop
    • Сравнение дистрибутивов и версий Hadoop 2/3 (Arenadata Hadoop, Cloudera Data Platform) : различия и ограничения.
    • Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. Federated  NameNode. Hadoop в облаке.
    • Интеграция с другими решениями: streaming (Data Flow) – Arenadata Streaming (Kafka+NiFi), NoSQL – Arenadata DB (GreenPlum)
  6. Установка кластера
    • Установка Hadoop кластера. Выбор начальной конфигурации
    • Оптимизация уровня ядра для узлов
    • Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций
    • Установка Hadoop клиентов. Установка Hadoop кластера в облаке.
    • Автоматическая установка
    • Установка и настройка кластера Hadoop с использованием Enterprise Tools  в изолированном окружении (offline).
  7. Операции обслуживания кластераHadoop
    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск
    • Управление узлами
    • Управление обновлениями и создание локального репозитория.
  8. Оптимизация и управление ресурсами
    • Поиск узких мест.
    • Производительность. Файловая система. Data Node. Сетевая производительность
    • Планировщики: FIFO scheduler. Планировщик емкости (Capacity Scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
    • Особенности управления ресурсами для разных дистрибутивов
  9. Управление кластером Hadoop с использованием Arenadata Cluster Manager ADCM
    • Установка Arenadata Cluster Manager
    • Интерфейс управления Arenadata Cluster Manager
    • Базовые операции обслуживания и управление задачами с использованием Arenadata Cluster Manager
    • Диагностика и trobleshooting с Arenadata Cluster Manager
  10. Безопасность Hadoop
    • Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива Arenadata Hadoop: Apache Ranger, Apache Atlas, Apache Knox.
    • Многопользовательский режим. Аутентификация и авторизация. Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа.
    • Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).
    • Best Practices для дистрибутива Arenadata Hadoop
  11. Мониторинг кластера Hadoop
    • Встроенные средства мониторинга Arenadata Cluster Manager и кластер мониторинга Prometheus и Grafana
    • Логи сервисов и компонент
  12. Troubleshooting
    • DataNode
    • Name Node
    • Восстановление NameNode
  13. Инструментарий Hadoop экосистемы дистрибутива Arenadata Hadoop
    • Графическая консоль Apache Zeppelin
    • Введение в Apache Hive, понятие Hive таблицы, установка Hive.
    • Импорт и экспорт SQL данных с применением Apache Sqoop.
    • Обзор и назначение компонент: Apache HBase, Apache Phoenix, Apache Spark, Apache Zookeeper, Apache AirFlow, Apache Flink, Apache Solr

Примерный список практических занятий курса по Администрированию кластера Arenadata Hadoop:

  • Настройка кластера управления Arenadata Cluster Manager (ADCM)
  • Настройка кластера мониторинга Prometheus, Grafana
  • Использование Enterprise Tools для организации оффлайн установки Arenadata Enterprise Platform
  • Ручная установка -узлового кластера Arenadata Hadoop в облаке Amazon Web Services с использованием Arenadata Cluster Manager (ADCM)
  • Базовые операции с кластером Hadoop и файловые операции HDFS.
  • Управление ресурсами и запуском задач с использованием YARN MapReduce.
  • Администрирование кластера с использованием Arenadata Cluster Manager (ADCM) (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
  • Установка и выполнение базовых операций в Apache Hive, Apache Sqoop, Apache Spark
  • Выполнение задач в веб-интерфейсе Apache Zeppelin
  • Настройка высокой доступности YARN Resource Manager (опционально).
  • Установка инструментов Enterprise Platform Security ( Apache Ranger) (опционально).

Примечание:

  • Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу)
  • Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

 

Программа курса «ADH: Администрирование кластера Arenadata Hadoop»

Скачать программу курса «ADH: Администрирование кластера Arenadata Hadoop» в формате pdf

Укажите e-mail, на который будет оправлена ссылка для скачивания файла: