Что такое DDL-операции и почему они так важны для Hive

В прошлый раз мы говорили про DML-операции в Hive. Сегодня поговорим про DDL-операции в этой распределённой Big Data платформе. Также рассмотрим применение этих операций к объектам, хранящимся в этой СУБД. Читайте далее про особенности работы DDL-операции в Hive.

DDL-операции в СУБД Apache Hive

DDL-операции (Data Definition Language, Язык Определения Данных) — это набор SQL-операторов для определения данных. С помощью этих операторов Hive описывает структуру данных (базы данных, таблицы, представления) для корректного применения различных запросов к ним. Основными DDL-операциями в Hive служат следующие:

CREATE — оператор для создания объектов в Hive. Объектами могут служить базы данных, таблицы, представления;
SHOW — оператор для отображения имеющихся объектов в кластере Hive. Обычно используется для корректного задания имени объекта при работе с ним;
DESCRIBE — операция для описания структуры Hive-объектов (например, типы полей заданной таблицы);
DROP — команда, отвечающая за полное удаление объекта из кластера Hive;
USE — операция, которая используется для переключения между существующими БД в кластере. Это необходимо для корректной работы SQL-запросов.

Работа с DDL-операциями в Hive: несколько практических примеров

Одной из основных DDL-операций является SQL-команда CREATE, которая отвечает за создание. Следующий код на языке HiveQL отвечает за создание таблицы book [1]:

CREATE TABLE IF NOT EXISTS book (
id_book int,
name        char(25),
price         int,
author      char(25),
date_issue date,
amout       int,
raiting      int)

Как видно из вышерассмотренного примера, для создания таблицы наряду с CREATE используется SQL-параметр TABLE. Для создания базы данных необходимо использовать параметр DATABASE совместно с CREATE [1]:

CREATE DATABASE stud;

Для отображения имеющихся в Hive элементов (баз данных или таблиц) используется команда SHOW [1]:

SHOW DATABASES

курсы администраторов spark, курсы по mongodb, курсы arenadata hadoop, курсы по sparksql, курс разработчиков arenadata db, курсы nosql в москве, big data курсы москва, курсы по sparksql — Имеющиеся базы данных в Hive

Для описания атрибутов имеющихся объектов используется команда DESCRIBE. В качестве примера рассмотрим вывод описания полей таблицы apple:

DESCRIBE apple

DESCRIBE apple

Для того, чтобы удалить существующую таблицу в Hive используется команда DROP, которая также является одной из CRUD-операций, а также входит в набор операций DML [1]:

DROP TABLE book

Нередко требуется переключаться между базами данных в Hive для корректного выполнения запросов к таблицам. За переключение с одно базы данных на другую отвечает команда USE, которая в качестве параметра принимает название БД, на которую необходимо переключиться [1]:

USE stud

Таким образом, благодаря поддержке DML-операций, Hive обеспечивает разработчика весьма удобным и интуитивно понятным интерфейсом для работы с объектами Big Data в распределенной среде. Это делает Apache Hive весьма удобным средством для работы с Big Data.

Hadoop SQL администратор Hive

Код курса

HIVE

Ближайшая дата курса

по запросу

Продолжительность

8 ак.часов

Стоимость обучения

24 000 руб.

Больше подробностей про применение Apache Hive в проектах анализа больших данных вы узнаете на практических курсах по NoSQL в нашем лицензированном учебном центре обучения и повышения квалификации ИТ-специалистов в Москве:

IMPA: CLOUDERA IMPALA DATA ANALYTICS
ADQM: ЭКСПЛУАТАЦИЯ ARENADATA QUICKMARTS
ADBR: Arenadata DB для разработчиков
ADB: Эксплуатация Arenadata DB
HBASE: Администрирование кластера HBase
HIVE: Hadoop SQL администратор Hive
NoSQL: Интеграция Hadoop и NoSQL

Записаться на курс

Смотреть раcписание

Источники