Курс Hadoop SQL Hive администратор

Курс Hadoop SQL Hive администратор

Ближайшая дата курса 19 февраля
  22 апреля
  03 июня
Стоимость обучения    18.000 рублей
Код курса    HIVE

Курсы обучения BigData SQL Hive и Hadoop SQL Hive к кластерам

1-дневный практический тренинг по настройке доступа к большим данных в распределенноq файловой системе HDFS ( платформа Hadoop) с помощью интерфейса Hadoop SQL Hive. Рассматриваются аспекты SQL доступа к не структурированным данным с использованием Apache Hive, Cloudera Impala, курс по Apache HBaseSpark SQL, использование и оптимизация запросов операций JOIN и SELECT< оптимизация доступа с помощью партиций и buckets.

Аудитория: Cпециалисты SQL имеющие и желающие применить опыт работы с реляционными базами данных  для организации хранения, настройке импорта и экспорта данных с использованием Apache Hive  в кластере Hadoop.

Предварительный уровень подготовки:

  • Начальный опыт работы в Unix
  • Начальный опыт работы с SQL

Продолжительность: 1 день, 8 академических часов.

Практический курс для администраторов и разработчиков для Apache Hive. Рассматриваются методы доступа к данным с использованием HiveQL, загрузка и выгрузка данных в Hive, HDFS, реляционные БД  и NoSQL, организация и оптимизация хранения данных с использованием Hive на HDFS, вопросы интеграции с другими инструментами экосистемы Hadoop.   Практические занятия выполняются в  AWS и локальной кластерной системе с использованием дистрибутивов  Cloudera Hadoop, HortonWorks, Arenadata.

Соотношение теории к практике 40/60

Программа курса

1. Основные концепции Apache Hive

  • Архитектура Hive.
  • Инструменты администирования и исполнения запросов: beeline/Hive shell & HUE Query Editor.
  • Схема чтения и записи в Hive.
  • Структура и формат хранения файлов HIVE.
  • Синтаксис HiveQL. Hive DDL и DML операции.

2. Импорт и экспорт в Apache Hive

  • Загрузка данных в таблицы Hive.
  • Внешние и управляемые таблицы в HiveQL.
  • Оптимизации производительности с использование Partition, Buckets.
  • Импорт/экспорт данных БД.
  • Форматы хранения данных и применение компрессии.

3. Реализация JOIN в Hive

  • Map JOIN.
  • Comon JOIN.
  • Skewed JOIN.
  • Collocated JOIN.

4. Advanced HiveQL и Hadoop SQL 

5.Сценарии применения Hive

Курс содержит практические лабораторные работы на кластере в Amazon Web Services по настройке партиционирования больших данных на файловой системе HDFS, оптимизация исполнения запросов и интеграция с существующими решениями Cloudera Impala, HBase , Spark SQL и Sqoop.

  1.  

курсы обучения Hadoop и машинного обучения  Hadoop SQL Hive

 

Скачать программу курса «Hadoop SQL Hive администратор» в формате pdf

 

Оптимизация запросов JOIN в HIVE