Администрирование кластера Hadoop

5 дней практического обучения работе с кластером Hadoop: установка и настройка, обеспечение безопасности (Kerberos, Apache Ranger — ознакомительно), мониторинг, репликация и резервное копирование, взаимодействие с компонентами экосистемы Hadoop (Apache Spark, Hive, Sqoop, HBase), работа с HDFS и MapReduce.

О продукте:

Сегодня Apache Hadoop является самой популярной открытой платформой для распределенных вычислений и главной технологией больших данных (Big Data). Данный курс для администраторов Big Data содержит всю необходимую теоретическую информацию и практические задания по планированию и развертыванию распределенных вычислительных кластеров на базе дистрибутивов Arenadata Hadoop версии 3. Рассматриваются процессы мониторинга и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент. Особое внимание уделено настройкам безопасности системы Kerberos (Active Directory и MIT/FreeIPA) на базе Hadoop.

Курс администрирование кластера Hadoop построен на сквозных практических примерах развертывания и администрирования распределенной вычислительной среды: локально и в облачной инфраструктуре. Вы изучите особенности использования компонент Hadoop для запуска задач распределенных вычислений с тестовыми данными. Практические занятия выполняются в кластерной среде Amazon Web Services/Yandex с использованием Apache Hadoop версии 3 на базе дистрибутива Arenadata Hadoop Community Edition (Cloudera Data Platform (CDP) Private Cloud) или Apache Hadoop , а также программного обеспечения управления кластером Arenadata Cluster Manager ADCM (Cloudera Manager)

Примечание: с 1 июля 2022 года данный курс проводится по дистрибутиву Hadoop версии 3 Arenadata Hadoop Community Edition.

Для корпоративного формата обучения возможна выделенная программа по любой версии дистрибутива Hadoop (версия 2/3, Arenadata, ванильный Apache Hadoop, Cloudera- уточняйте у менеджера).

Аудитория:

Практический курс Администрирование кластера Hadoop предназначен для системных администраторов, архитекторов, DevOps-инженеров и разработчиков Big Data, которые хотят освоить прикладные навыки установки, конфигурирования, обслуживания, управления и администрирования кластера Hadoop на базе дистрибутивов Arenadata Hadoop и Arenadata Cluster Manager (ADCM).

Уровень подготовки:

Знание базовых команд и опыт работы в Linux (обязательно)
Опыт работы с любым текстовым редактором vi, nano

Продолжительность: 5 дней, 40 академических часов.
Соотношение теории к практике 40/60

Программа курса «Администрирование кластера Hadoop»

1. Введение в Big Data

- Что такое BigData. Понимание проблемы Big Data
- Эволюция систем распределенных вычислений Hadoop
- Принципы формирования Data Lake и pipelines
- Схемы организации Data Lakes с использованием кластеров Hadoop, NoSQL и платформ потоковой обработки данных

2. Архитектура Apache Hadoop

- Hadoop сервисы и основные компоненты. Name node. DataNode.
- YARN сервис-планировщик
- Демоны HDFS
- Отказоустойчивость и высокая доступность

3. Hadoop Distributed File System

- Архитектура HDFS. Блоки HDFS.
- Основные команды работы с HDFS.
- Операции чтения и записи, назначения HDFS.
- Дисковые квоты. Поддержка компрессии
- Основные форматы хранения данных TXT, XML, JSON, AVRO, ORC, Parquet, Sequence файлы
- Импорт (загрузка) данных на HDFS
- Организация Tiering для хранения данных
- Архивное хранение HDFS
- Локальное чтение и распределенное кэширование

4. Map Reduce

- Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce 3
- Ограничения и параметры MapReduce и YARN
- Управление запуском пользовательских задач (jobs) под MapReduce

5. Дизайн кластера Hadoop

- Сравнение дистрибутивов и версий Hadoop 2/3 (Arenadata Hadoop, Cloudera Distributed Hadoop CDP, Apache Hadoop): различия и ограничения
- Требования программного и аппаратного обеспечения
- Планирование кластера
- Масштабирование кластера Hadoop.
- Сравнение Cloud решений для Hadoop. Amazon EMR/ Yandex Cloud
- Миграция данных и репликация данных

6. Установка кластера Arenadata Hadoop

- Оптимизация OS для узлов кластера
- Установка Hadoop-кластера с использованием ADCM
- Выбор начальной конфигурации
- Начальная конфигурация HDFS и MapReduce
- Файлы логов и конфигураций
- Установка Hadoop клиентов
- Установка Hadoop кластера в облаке
- Автоматические варианты установки
- Установка и настройка кластера Hadoop в изолированном окружении (offline).

7. Операции обслуживания кластера Hadoop

- Дисковая подсистема
- Квоты
- Остановка, запуск, перезапуск (Graceful Shutdown)
- Управление узлами
- Управление обновлениями и создание локального репозитория

8. Оптимизация и управление ресурсами

- Поиск узких мест
- Производительность. Файловая система. Data Node и Data layout и партиционирование, bucketing
- Планировщики: FIFO scheduler. Планировщик емкости (Capacity Scheduler). Гранулярное управление ресурсами (Fair Scheduler). Защита очередей и доминантное управление ресурсами DRF.
- Особенности управления ресурсами для разных дистрибутивов

9. Управление кластером Hadoop с использованием Arenadata Cluster Manager (Cloudera Manager)

- Основные операции и задачи c использованием ADCM (ClouderaManager)
- Мониторинг кластера. Работа с логами и сервисами
- Диагностика и разрешение проблем с ADCM
- Обзор Apache Zookeeper

10. Безопасность Apache Hadoop

- Безопасность по умолчанию
- Многопользовательский режим
- Аутентификация и авторизация с использованием Active Directory(Microsoft), REALM MIT/FreeIPA: Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop
- Обзор возможностей компонент безопасности Apache Ranger, Apache Knox, Apache Atlas
- Резервное копирование и аварийное восстановление
- Репликация данных и snapshoting. Конфигурирование высокой доступности NameNode (HA)
- Best practices Cloudera/ Arenadata

11. Troubleshooting

- Data Node
- Name Node
- Восстановление Name Node

12. Инструментарий Apache Hadoop экосистемы

- Графический интерфейс сервиса HUE/Zeppelin
- Основы Apache Zookeeper
- Введение в Hadoop SQL: Apache Hive, понятие Hive-таблицы, установка Hive
- Использование Apache Sqoop — установка и выполнение базовых операций
- Обзор и назначение компонент: Apache Spark, Apache Solr, Apache HBase, Apache Phoenix, Apache Airflow, Apache Flink

Примерный список практических занятий:

Установка кластера и настройка Arenadata Cluster Manager (ADCM)
Настройка оффлайн репозитория для установки кластера Arenadata Hadoop и RHEL/Centos
Ручная установка 3х-узлового кластера Hadoop версии 3 с дистрибутива Arenadata Cluster Manager (ADCM) в облаке Amazon Web Services с использованием ADCM
Базовые операции с кластером Hadoop и файловые операции HDFS.
Управление ресурсами и запуском задач с использованием YARN, Map Reduce/Tez.
Управление кластером с использованием Arenadata Cluster Manager (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
Настройка кластера мониторинга
Конфигурирование системы аутентификации Kerberos для кластера Hadoop под управление Arenadata Cluster Manager (опционально, по возможности)
Установка и выполнение базовых операций в Apache Hive, Apache Sqoop
Выполнение задач в веб-интерфейсе HUE/Apache Zeppelin
HA высокая доступность (High Availablility) NameNode (опционально) и YARN (ресурс-менеджер) .

Примечание:
Доступ к лабораторному стенду на Yandex Cloud предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу).
Практические занятия с меткой (опционально) выполняются по желанию и при наличии технической возможности и свободного времени у слушателей

Возможно использование других версий дистрибутива для проведения курса для корпоративного формата обучения ( Cloudera Distributed Hadoop, Apache Hadoop, Arenadata Hadoop)

Что Вы получите:

По окончании курса «Администрирование кластера Hadoop» в нашем лицензированном учебном центре «Школа Больших Данных» вы получите сертификат или удостоверение установленного образца, которые могут засчитываться в качестве свидетельств о повышении квалификации.

Кто проводит курс

Комиссаренко Николай - преподаватель "Школа Больших Данных" эксперт Kafka, NiFi, Greenplum, Hadoop, ClickHouse

Комиссаренко Николай

Томский Политехнический Институт (Томск, 1994)

Профессиональные компетенции:

Сертифицированный тренер Arenadata.
Эксперт по построению Data Lake и аналитике больших данных на решениях Arenadata, Cloudera и в облачных средах.
Обладает престижными международными сертификациями, включая CISSP и CISM, а также является сертифицированным архитектором облачных решений Dell EMC.

Отзывы слушателей курса

HADM: Администрирование кластера Hadoop

Evgeny Kovalev

Обучался на курсе HADM администрирование кластера Arenadata Hadoop. Интересный курс, хорошая подача.

HADM: Администрирование кластера Hadoop

Peter Fedoseev

С 30 ноября по 4 декабря прошел курс "Администрирование кластера Hadoop". Учитывая, что я обладал довольно поверхностной информацией в данной теме (я CIO) - ушел с курсов просветленным. Многое стало понятным, в процессе обучения наложил знания на существующую инфраструктуру компании, в которой работаю. Рекомендую коллегам руководителям в ИТ - прокачаться на данном курсе, вы поймете куда двигаться в ближайшие 2-3 года. Админам, работающим или стремящимся в BigData- обязательно!

HADM: Администрирование кластера Hadoop

Алексей Александров

Обучался на программе HADM. Подача материала доступная. Порадовало соотношение теории и практики 50/50. Отзывчивый преподаватель. Однозначно рекомендую!!!

HADM: Администрирование кластера Hadoop

Grigory Sidorov

Прошел Курс Администрирование кластера Hadoop. Подача материала хорошая, размеренная. Преподаватель отвечает на все вопросы, и пытается как можно прозрачней преподнести материал.

HADM: Администрирование кластера Hadoop

Roman Besschetnov

отзыв на Google

Посетил курс администрирование Hadoop. На курсе устанавливали кластер с нуля на виртуалках в облаке Amazon. Настраивали Kerberos, тестировали выполнение задач на кластере, управление ресурсами кластера. Т.к. кластер развернут в облаке, после завершения занятий можно самостоятельно работать с кластером из дома. Лекции вел Николай Комиссаренко, после обучения предоставил все материалы. На занятиях отвечал на дополнительные вопросы, рассмотрели как решить пару живых задач от студентов. Хороший курс для начала изучения BigData. Update Дополнительно прошел обучения по Airflow и NiFi. Курсы двух дневные упор на занятиях делался на использовании продуктов, администрированию уделялось меньше времени. Т.к. курсы короткие, то перед занятиями желательно почитать обзорные статьи по продуктам, чтобы не терять время на базовое погружение и задавать более предметные вопросы. Перед началом занятий желательно связаться с школой и запросить что больше интересуется на обучении. Может быть предложить свои кейсы, чтобы на лабораторных отработать не только общий функционал.

HADM: Администрирование кластера Hadoop

Демьян Н

отзыв на Google

Учился на курсе Администрирование Hadoop. Курс вёл Николай Комиссаренко. Отлично подготовленная, продуманная, системная программа курса. Практические занятия организованы так, что у студентов есть возможность познакомиться с реальными особенностями изучаемого продукта. Отключил голову и прощёлкал лабы по книжке - здесь не работает. Преподаватель легко и развёрнуто отвечает на возникающие вопросы не только по теме предмета, но и по смежным.

HADM: Администрирование кластера Hadoop

Timur Redzhepov

отзыв на Google

Эффективный практический курс. Прошел курс Администрирование Hadoop в октябре 2018. Хорошо наполненный материал, оптимальная длительность курса и все делалось своими руками. Местами было непросто, но преодолимо. Оправдал все ожидания, после курса появилось целостное понимание создания и работы кластера. Николай, большое спасибо

HADM: Администрирование кластера Hadoop

Peter Fedoseev

отзыв на Google

С 30 ноября по 4 декабря прошел курс "Администрирование кластера Hadoop". Учитывая, что я обладал довольно поверхностной информацией в данной теме (я CIO) - ушел с курсов просветленным. Многое стало понятным, в процессе обучения наложил знания на существующую инфраструктуру компании, в которой работаю. Рекомендую коллегам руководителям в ИТ - прокачаться на данном курсе, вы поймете куда двигаться в ближайшие 2-3 года. Админам, работающим или стремящимся в BigData- обязательно! Рекомендация - настойчиво, для тех кто "думает, что знает": перед курсом уделите время работе с командной строкой Linux! Total recall - обязательное условие. Много практической работы, и если есть затык в Linux - будете безнадежно отставать при выполнении лабораторных работ.

HADM: Администрирование кластера Hadoop

Pavel Nikolaev

отзыв на Google

Прошёл курс по администрированию Hadoop Cloudera. Отличная "живая" подача материала на "простом" языке. Как плюс работа с кластером построена на платформе AWS. На курсах не скучно, рекомендую!

HADM: Администрирование кластера Hadoop

Grigory Sidorov

отзыв на Google

Прошел Курс Администрирование кластера Hadoop. Подача материала хорошая, размеренная. Преподаватель отвечает на все вопросы, и пытается как можно прозрачней приподнести материал.

HADM: Администрирование кластера Hadoop

Юрий Филиппов

отзыв на Google

Был на курсе "Администрирование кластера Hadoop". Отличная подача материала. Очень много практики и технических подробностей. Подробный обзор стека технологий, платформы и инструментов. Рекомендую!

HADM: Администрирование кластера Hadoop

Иван Андросенко

отзыв на Google

Администрирование кластера Хадуп - отличный курс, в чтении Николая Комиссаренко. По окончанию курса, есть полная уверенность, что развернуть кластер Хадуп не составит проблем.

HADM: Администрирование кластера Hadoop

Дима

отзыв на Google

Был на основах хадупа, все материалы описаны доступным языком. В частности хочу отметить преподавателя Николая Комисаренко, как очень квалифицированного преподавателя и специалиста.

HADM: Администрирование кластера Hadoop

Evgeny Kovalev

отзыв на Google

Обучался на курсе HADM администрирование кластера Arenadata Hadoop. Интересный курс, хорошая подача.

HADM: Администрирование кластера Hadoop

Алексей Александров

отзыв на Google

Обучался на программе HADM. Подача материала доступная. Порадовало соотношение теории и практики 50/50. Отзывчивый преподаватель. Однозначно рекомендую!!!

HADM: Администрирование кластера Hadoop

Виктор Медведеф

отзыв на Google

Спасибо большое Николаю за курс HADM - море информации, позитивного настроя, желания развиваться!

Оставить отзыв

Чтобы записаться на курс HADM: Администрирование кластера Hadoop позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.