ADHI: Основы Arenadata Hadoop

Apache Hadoop, ArenaData, Аренадата, авторизованное обучение

Курсы администрирования Hadoop> Курсы Arenadata Hadoop  в учебном центре «Школы Больших Данных»

Ближайшая дата курса по основам Arenadata Hadoop  
   
Стоимость обучения    
Стоимость сертификационного экзамена   

курсы по администрированию кластера Hadoop и машинного обучения

3 дня авторизованного практического обучения основам Arenadata Hadoop на платформе  отечественного дистрибутива с открытым исходным кодом:

  • планирование и развертывание распределенных вычислительных кластеров Apache Hadoop на базе дистрибутива Arenadata Hadoop;
  • мониторинг и оптимизация производительности системы;
  • резервное копирование и аварийное восстановлению узлов кластера и отдельных компонент;
  • настройка безопасности системы Kerberos на базе Hadoop.

Аудитория

Системные администраторы, системные архитекторы и разработчики Hadoop, желающие получить практические навыки по установке, конфигурированию, обслуживанию и управлению кластером Hadoop с использованием дистрибутива Arenadata Hadoop.

Продолжительность: 3 дня, 24 академических часа.

Предварительный уровень подготовки:

  • Опыт работы в Unix
  • опыт работы с текстовым редактором vi (желателен)

О курсе

Arenadata Hadoop является первой отечественной платформой Hadoop с открытым исходным кодом для распределенного хранения больших данных и параллельных вычислений. В рамках данного курса вы получите теоретические знания и практические опыт по планированию и развертыванию распределенных вычислительных кластеров Apache Hadoop на базе дистрибутива Arenadata Hadoop, мониторингу и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройки безопасности системы Kerberos на базе Hadoop.

Курс построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре, а также использовании компонентов Hadoop для запуска задач распределенных вычислений с тестовыми данными. Практические занятия выполняются в кластерной среде Amazon Web Services с использованием дистрибутивов Arenadata Hadoop и программного обеспечения Apache Ambari.

Соотношение теории к практике 40/60

Программа курса «Основы Arenadata Hadoop»

  1. Введение в Big Data
  • Что такое Big Data. Понимание проблемы Big Data.
  • Эволюция систем распределенных вычислений Hadoop.
  • Принципы формирование pipelines и Data Lake.
  1. Архитектура Arenadata Hadoop
  • Hadoop сервисы и основные компоненты. Name node. Data Node. YARN сервис. Планировщик. HDFS.
  • Отказоустойчивость и высокая доступность.
  1. Hadoop Distributed File System
  • Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS. Дисковые квоты. Поддержка компрессии.
  • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы.
  • Импорт (загрузка) данных на HDFS.
  1. MapReduce
  • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce.
  • YARN MapReduce Ограничения и параметры MapReduce и YARN.
  • Управление запуском пользовательских задач (jobs) под MapReduce.
  1. Установка кластера
  • Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций.
  • Установка Hadoop клиентов. Установка Hadoop кластера в облаке. Автоматические варианты установки. Установка и настройка кластера Hadoop в изолированном окружении (offline).
  1. Оптимизация и управление ресурсами
  • Поиск узких мест. Производительность. Файловая система. Data Node.
  • Сетевая производительность. FIFO scheduler. Планировщик емкости (Capacity scheduler).
  • Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
  1. Управление кластером Hadoop с использованием Apache Ambari
  • Установка Apache Ambari. Интерфейс управления Apache Ambari.
  • Базовые операции обслуживания и управление задачами с использованием Apache Ambari.
  • Диагностика и trobleshooting с Apache Ambari.
  1. Инструментарий Hadoop экосистемы дистрибутива ArenaData
  • Графический интерфейс сервиса Zeppelin/HUE.
  • Введение Apache Pig.
  • Введение в Apache Hive/Tez, понятие Hive таблицы, установка Hive/Tez.
  • Введение в Apache sqoopустановка и выполнение базовых операций.
  • Введение в Apache Flume — установка и выполнение базовых операций.
  • Обзор и назначение компонент: Apache Kafka, Apache HBase, Apache NiFi, Apach Spark, Apache Flink, Apache Zookeeper.

Для регистрации на курсы «Основы Arenadata Hadoop« заполните  форму по ссылке внизу или позвоните по телефону +7 (915) 307-00-74

курсы по администрированию кластера Hadoop и машинного обучения

Скачать программу курса «ADHI: Основы Arenadata Hadoop» в формате pdf