ADHI: Основы Arenadata Hadoop
Ближайшая дата курса
13 сентября 2021
11 октября 2021
06 декабря 2021
Стоимость обучения 90.000 руб. Регистрация
Стоимость сертификационного экзамена 9.000 рублей
Код курса ADHI

Курсы администрирования Hadoop> Курсы Arenadata Hadoop в учебном центре «Школы Больших Данных»

3 дня авторизованного практического обучения для системных администраторов, администраторов кластеров, архитекторов и разработчиков Big Data по основам Arenadata Hadoop на платформе отечественного дистрибутива с открытым исходным кодом:

  • планирование и развертывание распределенных вычислительных кластеров Apache Hadoop на базе дистрибутива Arenadata Hadoop;
  • Базовые операции обслуживания и администрирование компонент кластера Arenadata Hadoop

Что такое Arenadata Hadoop

Arenadata Hadoop (ADH) – это полноценный дистрибутив распределенной платформы хранения больших данны а базе Apache Hadoop, адаптированный для корпоративного использования и зарегистрированный в государственном реестре программ для ЭВМ. ADH позволит вам быстро и просто в автоматическом режиме развернуть безопасный отказоустойчивой кластер для хранения и обработки больших данных как локально, так и в «облаках». Благодаря средствам мониторинга и управления конфигурацией кластера вы сможете быстро оптимизировать производительность всех компонентов своей Big Data системы.

Arenadata Hadoop является первой отечественной платформой Hadoop с открытым исходным кодом для распределенного хранения больших данных и параллельных вычислений. Благодаря регистрации продуктов Arenadata в Едином реестре российских программ, эти решения соответствуют политике импортозамещения и отлично подходят для использования в проектах цифровизации государственных организаций и частных компаний РФ.

ArenaData Hadoop, Аренадата Хадуп

 

 

Как устроен курс по основам Arenadata Hadoop

Продолжительность: 3 дня, 24 академических часа.

Соотношение теории к практике 50/50

Практический курс “Основы Arenadata Hadoop” предназначен для системных администраторов, системных архитекторов и разработчиков Hadoop, которые хотят получить практические навыки по установке, конфигурированию, обслуживанию и управлению кластером Hadoop с использованием дистрибутива Arenadata Hadoop.

Предварительный уровень подготовки:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano)

В рамках данного курса вы получите теоретические знания и практический опыт по планированию и развертыванию распределенных вычислительных кластеров Apache Hadoop на базе дистрибутива Arenadata Hadoop, мониторингу и оптимизации производительности системы, базовым операциям администрирования и обслуживания узлов кластера и отдельных компонент, обзор  и назначение компонент экосистемы кластер Hadoop.

Курс построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре, а также использовании компонентов Hadoop для запуска задач распределенных вычислений с тестовыми данными. Практические занятия выполняются в кластерной среде Amazon Web Services с использованием дистрибутивов Arenadata Hadoop и программного обеспечения Arenadata Cluster Manager ADCM.

Программа курса “Основы Arenadata Hadoop”

  1. Введение в Big Data
  • Что такое Big Data. Понимание проблемы Big Data.
  • Эволюция систем распределенных вычислений Hadoop.
  • Принципы формирование pipelines и Data Lake .
  1. Архитектура Arenadata Hadoop
  • Hadoop сервисы и основные компоненты. NameNode. DataNode.
  • YARN сервис
  • HDFS
  • Отказоустойчивость и высокая доступность
  1. Hadoop Distributed File System
  • Архитектура HDFS. Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS.
  • Дисковые квоты
  • Поддержка компрессии
  • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
  • Импорт (загрузка) данных на HDFS
  • Организация Tiering для хранения данных
  1. MapReduce
  • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v3
  • Ограничения и параметры MapReduce и YARN
  • Управление запуском пользовательских задач (jobs) под MapReduce
  1. Дизайн кластера Hadoop
  • Сравнение дистрибутивов и версий Hadoop 2/3 (Arenadata Hadoop, Cloudera Data Platform): различия и ограничения.
  • Требования программного и аппаратного обеспечения. Планирование кластера.
  • Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. Federated NameNode.
  • Hadoop в облаке.
  • Интеграция с другими решениями: streaming (Data Flow) – Arenadata Streaming (Kafka+NiFi), NoSQL – Arenadata DB (GreenPlum)
  1. Установка кластера с использованием Arenadata Cluster Manager
  • Оптимизация OS для узлов
  • Установка Arenadata Cluster Manager
  • Установка Hadoop кластера. Выбор начальной конфигурации
  • Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций
  • Установка Hadoop клиентов. Установка Hadoop кластера в облаке
  1. Операции обслуживания кластера Hadoop
  • Дисковая подсистема
  • Квоты
  • Остановка, запуск, перезапуск
  • Управление узлами
  1. Оптимизация и управление ресурсами
  • Производительность. Файловая система. Data Node. Сетевая производительность
  • Планировщики: FIFO Scheduler. Планировщик емкости (Capacity Scheduler).
  • Гранулярное управление ресурсами (Fair Scheduler). Защита очередей и доминантное управление ресурсами DRF
  1. Управление кластером Hadoop с использованием Arenadata Cluster Manager ADCM
  • Интерфейс управления Arenadata Cluster Manager и выполнение базовых операций обслуживания кластера Arenadata Hadoop.
  • Управление задачами с использованием Arenadata Cluster Manager
  1. Инструментарий Hadoop экосистемы дистрибутива Arenadata Hadoop
  • Графическая консоль Apache Zeppelin
  • Обзор и назначение компонент: Apache HBase, Apache Phoenix, Apache Spark, Apache Zookeeper, Apache Airflow, Apache Flink, Apache Solr, Apache Hive, Apache Sqoop

 

 

Программа курса «Основы Arenadata Hadoop»

Скачать программу курса «ADHI: Основы Arenadata Hadoop» в формате pdf

Укажите e-mail, на который будет оправлена ссылка для скачивания файла: