
Курсы администрирования Hadoop> Курсы Arenadata Hadoop в учебном центре «Школы Больших Данных»
Ближайшая дата курса по основам Arenadata Hadoop | 01 -03 марта |
Стоимость обучения | 90.000 рублей |
Стоимость сертификационного экзамена | 9.000 рублей |
Регистрация 3 дня авторизованного практического обучения для системных администраторов, администраторов кластеров, архитекторов и разработчиков Big Data по основам Arenadata Hadoop на платформе отечественного дистрибутива с открытым исходным кодом:
- планирование и развертывание распределенных вычислительных кластеров Apache Hadoop на базе дистрибутива Arenadata Hadoop;
- мониторинг и оптимизация производительности системы;
- резервное копирование и аварийное восстановлению узлов кластера и отдельных компонент;
- настройка безопасности системы Kerberos на базе Hadoop.
Что такое Arenadata Hadoop
Arenadata Hadoop (ADH) – это полноценный дистрибутив распределенной платформы хранения больших данных на базе Apache Hadoop, адаптированный для корпоративного использования и зарегистрированный в государственном реестре программ для ЭВМ. ADH позволит вам быстро и просто в автоматическом режиме развернуть безопасный отказоустойчивой кластер для хранения и обработки больших данных как локально, так и в «облаках». Благодаря средствам мониторинга и управления конфигурацией кластера вы сможете быстро оптимизировать производительность всех компонентов своей Big Data системы.
Arenadata Hadoop является первой отечественной платформой Hadoop с открытым исходным кодом для распределенного хранения больших данных и параллельных вычислений. Благодаря регистрации продуктов Arenadata в Едином реестре российских программ, эти решения соответствуют политике импортозамещения и отлично подходят для использования в проектах цифровизации государственных организаций и частных компаний РФ.
Как устроен курс по основам Arenadata Hadoop
Продолжительность: 3 дня, 24 академических часа.
Соотношение теории к практике 40/60
Практический курс «Основы Arehadata Hadoop» предназначен для системных администраторов, системных архитекторов и разработчиков Hadoop, которые хотят получить практические навыки по установке, конфигурированию, обслуживанию и управлению кластером Hadoop с использованием дистрибутива Arenadata Hadoop.
Предварительный уровень подготовки:
- Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano)
В рамках данного курса вы получите теоретические знания и практический опыт по планированию и развертыванию распределенных вычислительных кластеров Apache Hadoop на базе дистрибутива Arenadata Hadoop, мониторингу и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройки безопасности системы Kerberos на базе Hadoop.
Курс построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре, а также использовании компонентов Hadoop для запуска задач распределенных вычислений с тестовыми данными. Практические занятия выполняются в кластерной среде Amazon Web Services с использованием дистрибутивов Arenadata Hadoop и программного обеспечения Apache Ambari.
Смотреть программу
Программа курса «Основы Arenadata Hadoop»
- Введение в Big Data
- Что такое Big Data. Понимание проблемы Big Data.
- Эволюция систем распределенных вычислений Hadoop.
- Принципы формирование pipelines и Data Lake.
- Hadoop сервисы и основные компоненты. Name node. Data Node. YARN сервис. Планировщик. HDFS.
- Отказоустойчивость и высокая доступность.
- Hadoop Distributed File System
- Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS. Дисковые квоты. Поддержка компрессии.
- Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы.
- Импорт (загрузка) данных на HDFS.
- Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce.
- YARN MapReduce Ограничения и параметры MapReduce и YARN.
- Управление запуском пользовательских задач (jobs) под MapReduce.
- Установка кластера
- Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций.
- Установка Hadoop клиентов. Установка Hadoop кластера в облаке. Автоматические варианты установки. Установка и настройка кластера Hadoop в изолированном окружении (offline).
- Оптимизация и управление ресурсами
- Поиск узких мест. Производительность. Файловая система. Data Node.
- Сетевая производительность. FIFO scheduler. Планировщик емкости (Capacity scheduler).
- Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
- Управление кластером Hadoop с использованием Apache Ambari
- Установка Apache Ambari. Интерфейс управления Apache Ambari.
- Базовые операции обслуживания и управление задачами с использованием Apache Ambari.
- Диагностика и trobleshooting с Apache Ambari.
- Графический интерфейс сервиса Zeppelin/HUE.
- Введение Apache Pig.
- Введение в Apache Hive/Tez, понятие Hive таблицы, установка Hive/Tez.
- Введение в Apache sqoop — установка и выполнение базовых операций.
- Введение в Apache Flume — установка и выполнение базовых операций.
- Обзор и назначение компонент: Apache Kafka, Apache HBase, Apache NiFi, Apach Spark, Apache Flink, Apache Zookeeper.