HIVE: Hadoop SQL Hive администратор

HIVE: Hadoop SQL Hive администратор

Ближайшая дата курса 18 февраля 2020
  22 апреля 2020
  03 июня 2020
Стоимость обучения    18.000 рублей

Курсы обучения BigData SQL Hive и Hadoop SQL Hive к кластерам

1-дневный практический тренинг по настройке доступа к большим данных в распределенноq файловой системе HDFS ( платформа Hadoop) с помощью интерфейса Hadoop SQL Hive. Рассматриваются аспекты SQL доступа к не структурированным данным с использованием Apache Hive, Cloudera Impala, курс по Apache HBaseSpark SQL, использование и оптимизация запросов операций JOIN и SELECT< оптимизация доступа с помощью партиций и buckets.

Аудитория: Cпециалисты SQL имеющие и желающие применить опыт работы с реляционными базами данных  для организации хранения, настройке импорта и экспорта данных с использованием Apache Hive  в кластере Hadoop.

Предварительный уровень подготовки:

  • Начальный опыт работы в Unix
  • Начальный опыт работы с SQL

Продолжительность: 1 день, 8 академических часов.

Практический курс для администраторов и разработчиков для Apache Hive. Рассматриваются методы доступа к данным с использованием HiveQL, загрузка и выгрузка данных в Hive, HDFS, реляционные БД  и NoSQL, организация и оптимизация хранения данных с использованием Hive на HDFS, вопросы интеграции с другими инструментами экосистемы Hadoop.   Практические занятия выполняются в  AWS и локальной кластерной системе с использованием дистрибутивов  Cloudera Hadoop, HortonWorks, Arenadata.

Соотношение теории к практике 40/60

Программа курса

1. Основные концепции Apache Hive

  • Архитектура Hive.
  • Инструменты администирования и исполнения запросов: beeline/Hive shell & HUE Query Editor.
  • Схема чтения и записи в Hive.
  • Структура и формат хранения файлов HIVE.
  • Синтаксис HiveQL. Hive DDL и DML операции.

2. Импорт и экспорт в Apache Hive

  • Загрузка данных в таблицы Hive.
  • Внешние и управляемые таблицы в HiveQL.
  • Оптимизации производительности с использование Partition, Buckets.
  • Импорт/экспорт данных БД.
  • Форматы хранения данных и применение компрессии.

3. Реализация JOIN в Hive

  • Map JOIN.
  • Comon JOIN.
  • Skewed JOIN.
  • Collocated JOIN.

4. Advanced HiveQL и Hadoop SQL 

  • Интеграция Hive с Pig, Impala, Hbase, Spark, Sqoop.
  • Thrift сервер
  • User Defined Functions
  • Hive на Spark.
  • Hive на Tez

5.Сценарии применения Hive

Курс содержит практические лабораторные работы на кластере в Amazon Web Services по настройке партиционирования больших данных на файловой системе HDFS, оптимизация исполнения запросов и интеграция с существующими решениями Cloudera Impala, HBase , Spark SQL и Sqoop.

  1.  

курсы обучения Hadoop и машинного обучения  Hadoop SQL Hive

 

Скачать программу курса «Hadoop SQL Hive администратор» в формате pdf

 

Оптимизация запросов JOIN в HIVE