Основы Hadoop для пользователей

Основы Hadoop

Ближайшая дата курса:  15-16 ноября

курсы обучения Hadoop и машинного обучения

Курс подготавливает пользователей корпоративных систем к использованию инструментов аналитики больших данных  в кластерной среде Hadoop. Данный курс включает необходимую теоретическую подготовку (основы Hadoop) и расширенные практические примеры(How to) использования инструментов экосистемы Hadoop для выполнения своих задач. Лабораторные выполняются на локальном кластере Hadoop с использованием аутентификации Kerberos (Active Directory) с элементами коллективной работы.

Длительность: 16  ак. часов (24 ак. часа   расширенная программа)

Аудитория

Корпоративные пользователи Hadoop, аналитики и желающие узнать «How to …»

Соотношение теории к практике 40/60

Предварительная подготовка

  • Начальный опыт работы в Unix (желательно)

Программа

  1. Введение в Big Data (Большие данные)
    • Что такое Big Data
    • Понимание проблемы Big Data
    • Что такое Data Lake?
    • Отличия подходов бизнес аналитики от аналитики больших данных
    • Правила совместной работы в Data Lake (озере данных)
  2. Основы Hadoop
    • Основные принципы работы с файловой системой HDFS:
      • Удаление файлов
      • Дисковое квотирование
      • Особенности работы в HDFS
    • Совместная работа пользователей в кластеризированной среде:
      • Запуск заданий
      • Понятие очереди
      • Управление ресурсами
      • Управление доступом
      • Параметры запуска заданий
    • Форматы файлов и алгоритмы сжатия: команды и аргументы
    • Использование графического интерфейса HUE для работы с файлами
  3. Введение в MapReduce
    • Запуск заданий MapReduce
    • Управления параметрами запуска
    • Отладка заданий
    • Просмотр и получение pезультатов
    • Использование графического интерфейса HUE для запуска и отладки задач MapReduce
  4. Введение в Apache Pig
    • Запуск заданий Pig
    • Использование графического интерфейса HUE для Pig
  5. Введение в Hive
    • Hive и beeline интерфейс
    • Понятие таблиц
    • Ограничения Hive для аналитики данных и запросов
    • Параметры запуска заданий Hive
    • Просмотр плана (explain) запроса Hive
    • Использование графического интерфейса HUE для выполнения задач Hive
  6. Введение в Sqoop (опционально)
    • Настройка подключения к внешним базам данных
    • Сценарии импорта / экспорта данных в Hadoop/SQL
    • Использование графического интерфейса HUE для sqoop задач
    • Скриптование sqoop
  7. Введение в Flume (опционально)
    • Настройка агентов Flume
    • Запуск заданий Flume agent
  8. Введение в Cloudera Impala (опционально )
    • Сценарии использования Impala для аналитики данных и запросов
    • Использование графического интерфейса HUE для построения и отладки запросов в Cloudera Impala
    • Анализ (explain) плана запроса
  9. Введение в Apache Spark
    • Контексты работы Apache Spark
    • Настройка параметров запуска Executors
    • Запуск и анализ исполнения заданий Apache Spark
    • План исполнения запроса
    • Графический интерфейс консоли Apache Spark
  10. Введение в Cloudera Data Science Workbench
    • Основные приемы работы
    • Запуск кода
    • Управление заданиями

 

Примечание:  Модули помеченные  знаком «опционально» выполняются в случае расширенной версии курса (3 дня) или замены модулей  из основной программы.

 

курсы обучения Hadoop и машинного обучения

Скачать программу курса «Основы Hadoop для пользователей» в формате pdf

Если у Вас остались вопросы позвоните нам по телефону +7 (985) 162-29-63  или +7 (915) 307-00-74

(если телефон занят, мы на обучении. Оставьте сообщение и мы перезвоним вам)