Обработка партиционированных Parquet-файлов с Hive и Spark SQL

Недавно мы писали про обновление хранилища метаданных Apache Hive с помощью команды MSCK REPAIR TABLE, операторов AirFlow и Spark-заданий. В продолжение этой темы про работу с партиционированными Parquet-файлами сегодня рассмотрим применение Spark SQL для этого случая, чтобы использовать таблицу Hive вместо временного представления Spark.

Временные таблицы Hive/Spark и разделы в Parquet-файлах

В API DataFrame Apache Spark есть функция createOrReplaceTempView(), которая создает или заменяет локальное временное представление новым датафреймом. Время жизни этой временной таблицы привязано к сеансу SparkSession. Однако, при ее использовании иногда возникает ошибка, когда Spark не может связать временное представление или таблицу с базой данных по умолчанию. Избежать этого поможет использование таблицы Hive вместо временного представления Spark.

Напомним, временные таблицы Hive создаются временно в рамках активного сеанса для хранения промежуточных данных. По завершении обработки можно явно удалить временную таблицу или завершить сеанс, что приведет к автоматическому удалению всех временных данных. Временные таблицы хранят данные не в каталоге хранилища Hive, а в рабочем каталоге пользователя /tmp/hive/<user>/* в HDFS.

Hadoop SQL администратор Hive

Код курса

HIVE

Ближайшая дата курса

по запросу

Продолжительность

8 ак.часов

Стоимость обучения

24 000 руб.

Если временная таблица Apache Hive названа одинаковым именем с постоянной таблицей в этом NoSQL-хранилище, то в рамках текущего сеанса любые ссылки на постоянную таблицу будут перенаправляться во временную. При этом доступ к постоянной таблице не будет возможен в рамках текущего сеанса, пока временная таблица с тем же именем не будет удалена или переименована. Временные таблицы не поддерживают индексы и разделы.

Таким образом, партиционировать временную таблицу, т.е. разделить ее на разделы, нельзя. Поэтому применять вышеупомянутую функцию Spark SQL createOrReplaceTempView() для обработки Parquet-файлов, невозможно. Обойти это ограничение поможет небольшая последовательность действий, которую мы рассмотрим далее.

Тонкости обработки разделов

Напомним, NoSQL-хранилище Apache Hive предоставляет SQL-интерфейс для доступа к Hadoop HDFS, используя хранилище метаданных (Metastore) для сохранения информации о таблицах и каталог хранилища в HDFS для фактических данных. Основным файлом конфигурации этой NoSQL-СУБД является hive-site.xml, в котором клиенту Hive указывается, где найти хранилище метаданных и каталог данных. При предоставлении службы для удаленного приложения, такого как Spark, NoSQL-хранилище запускает Thrift-сервис, который по умолчанию используется на порту 9083 для подключения. Spark со своей стороны считывает параметр hive.metastore.uris, чтобы узнать адрес Thrift-сервиса, который определен в файле hive-site.xml в каталоге конфигурации Spark. Также необходимо установить два других параметра Spark, связанных с Hive: HIVE_HOME и PATH.

Анализ данных с Apache Spark

Код курса

SPARK

Ближайшая дата курса

13 мая, 2024

Продолжительность

32 ак.часов

Стоимость обучения

96 000 руб.

После подключение Apache Hive к Spark, можно прочитать партиционированный Parquet-файл из HDFS во внешнюю таблицу Hive средствами Spark SQL, используя выражение partitioned by в запросе create external table. При этом при создании этой таблицы следует сразу определить ее схему, т.е. столбцы и их типы данных, а также обязательно указать в выражении partitioned by столбец разделения, если входные данные являются партиционированными Parquet-файлами. Если этого не сделать, возникнут при применении команд, связанных с разделами.

Далее следует сообщить хранилищу метаданных Hive информацию о разделах таблицы, применив к ней команду MSCK REPAIR TABLE. Как мы уже рассматривали здесь, эта команда обновляет хранилище метаданных. После этого можно выполнять SQL-запросы к этой партиционированной таблице Hive, включая модификации разделов. При удалении раздела с помощью выражения drop if exists partition в команде изменения таблицы ALTER TABLE раздел удаляется из хранилища метаданных. Но фактические данные, связанные с этим разделом, все еще находятся на диске, т.к. это внешняя таблица Hive, сам файл данных при удалении разделов не модифицируется.

Интеграция Hadoop и NoSQL

Код курса

NOSQL

Ближайшая дата курса

5 августа, 2024

Продолжительность

40 ак.часов

Стоимость обучения

120 000 руб.

Больше практических примеров по работе с Apache Spark и Hive для эффективной аналитики больших данных вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Смотреть расписание

Записаться на курс

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Источники

Временные таблицы Hive/Spark и разделы в Parquet-файлах

Тонкости обработки разделов

Публикации по теме