HIVE: Курс Hadoop SQL Hive администратор

Практический курс Hadoop SQL Hive администратор

Ближайшая дата курса
08 сентября 2021
08 декабря 2021
09 февраля 2022
Стоимость обучения 18.000 руб. Регистрация
Код курса HIVE

1-дневный практический тренинг по настройке доступа к большим данных в распределенной файловой системе HDFS с помощью интерфейса Hadoop SQL Hive.

Что такое Apache Hive и где это используется

Apache Hive — это SQL-интерфейс доступа к данным, хранящимся в Hadoop (HDFS, HBase) . Hive позволяет выполнять запросы, агрегировать и анализировать данные используя SQL-синтаксис. Hive использует технологию MapReduce, преобразуя SQL-запросы в задания Apache Spark или Hadoop.

На практике Apache Hive используется инженерами данных (Data Engineer) в ETL-процессах для длительных пакетных заданий на больших наборах данных. Hive не поддерживает интерактивное выполнение запросов в режиме реального времени, а потому не может использоваться в OLTP-задачах.

Ключевыми преимуществами Apache Hive являются следующие:

  • масштабируемость – динамическое расширение при добавлении машины к кластеру Hadoop;
  • расширяемость за счет MapReduce и определяемых пользователем функций (UDF/UDAF/UDTF;
  • отказоустойчивость благодаря сохранению всех промежуточных результатов;
  • поддержка разных форматов данных – TEXTFILE, SequenceORC, RCFILE, а также Parquet (с помощью плагина в версиях позже 0.10). 

Как эффективно использовать эти достоинства и другие свойства Hive в production, рассматривается в нашем практическом курсе обучения “Hadoop SQL-администратор”.

 

 

Кому нужен курс Hadoop SQL по Apache Hive

Обучение Hive (курс Hadoop SQL) ориентировано на аналитиков, инженеров данных, разработчиков Big Data и других ИТ-специалистов, которые  хотят применить опыт работы с реляционными базами данных  для организации хранения, настройки импорта и экспорта данных в кластере Hadoop с использованием Apache Hive.

Предварительный уровень подготовки:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)
  • Начальный опыт работы с SQL

Как устроен курс Hadoop SQL по Apache Hive

Продолжительность: 1 день, 8 академических часов.

Соотношение теории к практике 40/60

Курс представляет собой практический однодневный тренинг по Apache Hive для аналитиков и инженеров данных, а также администраторов и разработчиков Big Data. Рассматриваются методы доступа к данным с использованием HiveQL, загрузка и выгрузка данных в Hive, HDFS, реляционные БД  и NoSQL. Изучаются нюансы SQL-доступа к неструктурированным данным с использованием Apache Hive и Cloudera Impala, включая некоторые аспекты курса по Apache HBase и Spark SQL.

Программа обучения включает модули организации и оптимизации хранения данных с использованием Hive на HDFS, в т.ч. использование и оптимизация запросов операций JOIN и SELECT, оптимизация доступа с помощью партиций и buckets. Разбираются вопросы интеграции с другими инструментами экосистемы Hadoop (Apache HBase, Spark SQL, Sqoop) и Cloudera Impala. Практические занятия выполняются в  Amazon Web Services (AWS) и локальной кластерной системе на базе дистрибутивов  Cloudera Hadoop, HortonWorks, Arenadata.

 

 

Программа курса “Hadoop SQL Hive администратор”

1. Основные концепции Apache Hive

  • Архитектура Hive.
  • Инструменты администирования и исполнения запросов: beeline/Hive shell & HUE Query Editor.
  • Схема чтения и записи в Hive.
  • Структура и формат хранения файлов HIVE.
  • Синтаксис HiveQL. Hive DDL и DML операции.

2. Импорт и экспорт в Apache Hive

  • Загрузка данных в таблицы Hive.
  • Внешние и управляемые таблицы в HiveQL.
  • Оптимизации производительности с использование Partition, Buckets.
  • Импорт/экспорт данных БД.
  • Форматы хранения данных и применение компрессии.

3. Реализация JOIN в Hive

  • Map JOIN.
  • Comon JOIN.
  • Skewed JOIN.
  • Collocated JOIN.

4. Advanced HiveQL и Hadoop SQL 

  • Интеграция Hive с Pig, Impala, Hbase, Spark, Sqoop.
  • Thrift сервер
  • User Defined Functions
  • Hive на Spark.
  • Hive на Tez

5. Сценарии применения Hive

Практические лабораторные работы на кластере в AWS по настройке партиционирования больших данных на файловой системе HDFS, оптимизация исполнения запросов и интеграция с существующими решениями Cloudera Impala, HBase, Spark SQL и Sqoop.

 

 

Программа курса «Hadoop SQL Hive администратор»

Скачать программу курса «Hadoop SQL Hive администратор» в формате pdf

Отправить ссылку на: