Spark SQL

Автор

Spark SQL – это часть Spark Structured API, с помощью этого API Вы можете работать с данными так, как будто Вы работаете с SQL сервером. API работает в обе стороны: результат выполнения SQL запроса – dataframe, в обратном направлении – регистрация существующего dataframe, как таблицы (к которой можно выполнить SQL запрос).

Технически, Spark SQL запросы, компилируются в операции над RDD (Resilient Distributed Dataset – абстракция нижнего уровня в Apache Spark).

В Spark SQL реализован ANSI стандарт языка SQL, при этом поддерживаются не только запросы (так называемые  DML операции), но и операции над таблицами и view (DDL операции). Созданные с помощью Spark SQL таблицы могут быть доступны в других системах управления данными, например, в Apache Hive. Spark SQL – это независимая
и самодостаточная реализация SQL интерфейса к данным.

 

 

 

https://www.bigdataschool.ru/bigdata/apache-spark-sql.html

Related Entries