
Курс Администрирование кластера Arenadata Hadoop
Ближайшая дата курса | 24 мая 2021 19 июля 2021 11 октября 2021 |
|
Стоимость обучения | 144.000 руб. | Регистрация |
Стоимость сертификационного экзамена | 9.000 рублей | |
Код курса | ADH |
5 дней авторизованного практического обучения для системных администраторов, администраторов кластеров, архитекторов и разработчиков Big Data по администрированию кластера Hadoop, установке и настройке кластера Arenadata Hadoop под управлением Arenadata Cluster Manager ADCM на платформе отечественного дистрибутива с открытым кодом Arenadata Hadoop версии 3;
- безопасность Kerberos;
- мониторинг, репликация и резервное копирование;
- взаимодействие с компонентами экосистемы Hadoop: Spark, Hive/Tez, sqoop, HDFS, MapReduce, HBase, Zookeeper, AirFlow.
Что такое Arenadata Hadoop
Arenadata Hadoop(ADH) – это полноценный дистрибутив распределенной платформы хранения больших данных на базе Apache Hadoop, адаптированный для корпоративного использования и зарегистрированный в государственном реестре программ для ЭВМ. ADH позволит вам быстро и просто в автоматическом режиме развернуть безопасный отказоустойчивой кластер для хранения и обработки больших данных как локально, так и в «облаках».Благодаря средствам мониторинга и управления конфигурацией кластера вы сможете быстро оптимизировать производительность всех компонентов своей Big Dataсистемы.
Arenadata Hadoop является первой отечественной платформой Hadoop с открытым исходным кодом для распределенного хранения больших данных и параллельных вычислений. Благодаря регистрации продуктовArenadata в Едином реестре российских программ, эти решения соответствуют политике импортозамещения и отлично подходят для использования в проектах цифровизации государственных организаций и частных компаний РФ.
Как устроен курс по администрированию кластера Arenadata Hadoop
Продолжительность: 5 дней, 40 академических часов.
Соотношение теории к практике 40/60
Практический курс “Администрирование кластера Arenadata Hadoop” предназначен для системных администраторов, системных архитекторов и разработчиков Hadoop, которые хотят получить продвинутые навыки по установке, конфигурированию, обслуживанию и управлению кластером Hadoop с использованием дистрибутива Arenadata Hadoop.
Предварительный уровень подготовки:
- Уверенное знание базовых команд Linux – опыт работы с командной строкой, файловой системой, POSIX , текстовыми редакторами vi, nano;
В рамках данного курса вы получите теоретические знания и практический опыт по:
- планированию и развертыванию распределенных вычислительных кластеров Hadoop на базе дистрибутива Arenadata Hadoop версии 2 и консоли Arenadata Cluster Manager ADCM ,
- мониторингу и оптимизации производительности системы,
- резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент,
- настройке безопасности системы Kerberos на базе Hadoop.
Курс построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре; использования компонент Hadoop для запуска задач распределенных вычислений с тестовыми данными. Практические занятия выполняются в кластерной среде Amazon Web Services с использованием дистрибутивов Arenadata Hadoop и программного обеспечения Arenadata Cluster Manager.
Программа курса “Администрирование кластера Arenadata Hadoop”
- Введение вBig Data и администрирование кластера Arenadata Hadoop
- Что такое BigData. Понимание проблемы Big Data
- Эволюция систем распределенных вычислений Hadoop
- Принципы формирование pipelines и Data Lake
- Архитектура Arenadata Hadoop
- Hadoop сервисы и основные компоненты. NameNode. DataNode.
- YARN сервис
- HDFS
- Отказоустойчивость и высокая доступность
- Hadoop Distributed File System
- Архитектура HDFS. Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS.
- Дисковые квоты
- Поддержка компрессии
- Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
- Импорт(загрузка) данных на HDFS
- Организация Tiering для хранения данных
- Архивное хранение HDFS
- Локальное чтение и распределенное кэширование
- Map Reduce
- Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2
- Ограничения и параметры MapReduce и YARN
- Управление запуском пользовательских задач (jobs) под MapReduce
- Дизайн кластера Hadoop
- Сравнение дистрибутивов и версий Hadoop 2/3 (Arenadata Hadoop, Cloudera Data Platform) : различия и ограничения.
- Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. Federated NameNode. Hadoop в облаке.
- Интеграция с другими решениями: streaming (Data Flow) – Arenadata Streaming (Kafka+NiFi), NoSQL – Arenadata DB (GreenPlum)
- Установка кластера
- Установка Hadoop кластера. Выбор начальной конфигурации
- Оптимизация уровня ядра для узлов
- Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций
- Установка Hadoop клиентов. Установка Hadoop кластера в облаке.
- Автоматическая установка
- Установка и настройка кластера Hadoop с использованием Enterprise Tools в изолированном окружении (offline).
- Операции обслуживания кластераHadoop
- Дисковая подсистема
- Квоты
- Остановка, запуск, перезапуск
- Управление узлами
- Управление обновлениями и создание локального репозитория.
- Оптимизация и управление ресурсами
- Поиск узких мест.
- Производительность. Файловая система. Data Node. Сетевая производительность
- Планировщики: FIFO scheduler. Планировщик емкости (Capacity Scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
- Особенности управления ресурсами для разных дистрибутивов
- Управление кластером Hadoop с использованием Arenadata Cluster Manager ADCM
- Установка Arenadata Cluster Manager
- Интерфейс управления Arenadata Cluster Manager
- Базовые операции обслуживания и управление задачами с использованием Arenadata Cluster Manager
- Диагностика и trobleshooting с Arenadata Cluster Manager
- Безопасность Hadoop
- Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива Arenadata Hadoop: Apache Ranger, Apache Atlas, Apache Knox.
- Многопользовательский режим. Аутентификация и авторизация. Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа.
- Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).
- Best Practices для дистрибутива Arenadata Hadoop
- Мониторинг кластера Hadoop
- Встроенные средства мониторинга Arenadata Cluster Manager и кластер мониторинга Prometheus и Grafana
- Логи сервисов и компонент
- Troubleshooting
- DataNode
- Name Node
- Восстановление NameNode
- Инструментарий Hadoop экосистемы дистрибутива Arenadata Hadoop
- Графическая консоль Apache Zeppelin
- Введение в Apache Hive, понятие Hive таблицы, установка Hive.
- Импорт и экспорт SQL данных с применением Apache Sqoop.
- Обзор и назначение компонент: Apache HBase, Apache Phoenix, Apache Spark, Apache Zookeeper, Apache AirFlow, Apache Flink, Apache Solr
Примерный список практических занятий курса по Администрированию кластера Arenadata Hadoop:
- Настройка кластера управления Arenadata Cluster Manager (ADCM)
- Настройка кластера мониторинга Prometheus, Grafana
- Использование Enterprise Tools для организации оффлайн установки Arenadata Enterprise Platform
- Ручная установка 3х-узлового кластера Arenadata Hadoop в облаке Amazon Web Services с использованием Arenadata Cluster Manager (ADCM)
- Базовые операции с кластером Hadoop и файловые операции HDFS.
- Управление ресурсами и запуском задач с использованием YARN MapReduce.
- Администрирование кластера с использованием Arenadata Cluster Manager (ADCM) (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
- Установка и выполнение базовых операций в Apache Hive, Apache Sqoop, Apache Spark
- Выполнение задач в веб-интерфейсе Apache Zeppelin
- Настройка высокой доступности YARN Resource Manager (опционально).
- Установка инструментов Enterprise Platform Security ( Apache Ranger) (опционально).
Примечание:
- Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу)
- Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей