Курс Hadoop SQL Hive администратор

обучение администраторов Big Data в Москве, Hive обучение, курс SQL-on-Hadoop

Практический курс Hadoop SQL Hive администратор

Ближайшая дата курса 01 июля
  14 октября
   
Стоимость обучения    18.000 рублей
Код курса    HIVE

1-дневный практический тренинг по настройке доступа к большим данных в распределенной файловой системе HDFS с помощью интерфейса Hadoop SQL Hive.

Что такое Apache Hive и где это используется

Apache Hive — это SQL-интерфейс доступа к данным, хранящимся в Hadoop (HDFS, HBase) . Hive позволяет выполнять запросы, агрегировать и анализировать данные используя SQL-синтаксис. Hive использует технологию MapReduce, преобразуя SQL-запросы в задания Apache Spark или Hadoop.

На практике Apache Hive используется инженерами данных (Data Engineer) в ETL-процессах для длительных пакетных заданий на больших наборах данных. Hive не поддерживает интерактивное выполнение запросов в режиме реального времени, а потому не может использоваться в OLTP-задачах.

Ключевыми преимуществами Apache Hive являются следующие:

  • масштабируемость — динамическое расширение при добавлении машины к кластеру Hadoop;
  • расширяемость за счет MapReduce и определяемых пользователем функций (UDF/UDAF/UDTF;
  • отказоустойчивость благодаря сохранению всех промежуточных результатов;
  • поддержка разных форматов данных — TEXTFILE, SequenceORC, RCFILE, а также Parquet (с помощью плагина в версиях позже 0.10). 

Как эффективно использовать эти достоинства и другие свойства Hive в production, рассматривается в нашем практическом курсе обучения «Hadoop SQL-администратор».

Кому нужен курс Hadoop SQL по Apache Hive

Обучение Hive (курс Hadoop SQL) ориентировано на аналитиков, инженеров данных, разработчиков Big Data и других ИТ-специалистов, которые  хотят применить опыт работы с реляционными базами данных  для организации хранения, настройки импорта и экспорта данных в кластере Hadoop с использованием Apache Hive.

Предварительный уровень подготовки:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)
  • Начальный опыт работы с SQL

Как устроен курс Hadoop SQL по Apache Hive

Продолжительность: 1 день, 8 академических часов.

Соотношение теории к практике 40/60

Курс представляет собой практический однодневный тренинг по Apache Hive для аналитиков и инженеров данных, а также администраторов и разработчиков Big Data. Рассматриваются методы доступа к данным с использованием HiveQL, загрузка и выгрузка данных в Hive, HDFS, реляционные БД  и NoSQL. Изучаются нюансы SQL-доступа к неструктурированным данным с использованием Apache Hive и Cloudera Impala, включая некоторые аспекты курса по Apache HBase и Spark SQL.

Программа обучения включает модули организации и оптимизации хранения данных с использованием Hive на HDFS, в т.ч. использование и оптимизация запросов операций JOIN и SELECT, оптимизация доступа с помощью партиций и buckets. Разбираются вопросы интеграции с другими инструментами экосистемы Hadoop (Apache HBase, Spark SQL, Sqoop) и Cloudera Impala. Практические занятия выполняются в  Amazon Web Services (AWS) и локальной кластерной системе на базе дистрибутивов  Cloudera Hadoop, HortonWorks, Arenadata.

Программа курса «Hadoop SQL Hive администратор»

1. Основные концепции Apache Hive

  • Архитектура Hive.
  • Инструменты администирования и исполнения запросов: beeline/Hive shell & HUE Query Editor.
  • Схема чтения и записи в Hive.
  • Структура и формат хранения файлов HIVE.
  • Синтаксис HiveQL. Hive DDL и DML операции.

2. Импорт и экспорт в Apache Hive

  • Загрузка данных в таблицы Hive.
  • Внешние и управляемые таблицы в HiveQL.
  • Оптимизации производительности с использование Partition, Buckets.
  • Импорт/экспорт данных БД.
  • Форматы хранения данных и применение компрессии.

3. Реализация JOIN в Hive

  • Map JOIN.
  • Comon JOIN.
  • Skewed JOIN.
  • Collocated JOIN.

4. Advanced HiveQL и Hadoop SQL 

5. Сценарии применения Hive

Практические лабораторные работы на кластере в AWS по настройке партиционирования больших данных на файловой системе HDFS, оптимизация исполнения запросов и интеграция с существующими решениями Cloudera Impala, HBase, Spark SQL и Sqoop.

Программа курса «Hadoop SQL Hive администратор»

Скачать программу курса «Hadoop SQL Hive администратор» в формате pdf

Отправить ссылку на:

Оптимизация запросов JOIN в Apache HIVE