Spark SQL

Spark SQL — это часть Spark Structured API, с помощью этого API Вы можете работать с данными так, как будто Вы работаете с SQL сервером. API работает в обе стороны: результат выполнения SQL запроса — dataframe, в обратном направлении — регистрация существующего dataframe, как таблицы (к которой можно выполнить SQL запрос).

Технически, Spark SQL запросы, компилируются в операции над RDD (Resilient Distributed Dataset — абстракция нижнего уровня в Apache Spark).

В Spark SQL реализован ANSI стандарт языка SQL, при этом поддерживаются не только запросы (так называемые DML операции), но и операции над таблицами и view (DDL операции). Созданные с помощью Spark SQL таблицы могут быть доступны в других системах управления данными, например, в Apache Hive. Spark SQL — это независимая
и самодостаточная реализация SQL интерфейса к данным.

SPARK: Курс Анализ данных с Apache Spark

Related Entries