Spark

Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Spark – это Big Data фреймворк с открытым исходным кодом для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop [1]. История появления Спарк и сравнение с Apache Hadoop Основным автором Apache Spark считается Матей Захария (Matei Zaharia), румынско-канадский учёный в области информатики. Он начал работу над проектом в 2009 году, будучи аспирантом Университета Калифорнии в Беркли. В 2010 году проект опубликован под лицензией BSD, в 2013 году передан фонду Apache Software Foundation и переведён на лицензию Apache 2.0, а в 2014 году принят в число проектов верхнего уровня Apache. Изначально Спарк написан на Scala, затем была добавлена существенная часть кода на Java, что позволяет разрабатывать распределенные приложения непосредственно на этом языке программирования [1]. Далее …

Spark SQL

Spark SQL — это часть Spark Structured API, с помощью этого API Вы можете работать с данными так, как будто Вы работаете с SQL сервером. API работает в обе стороны: результат выполнения SQL запроса — dataframe, в обратном направлении — регистрация существующего dataframe, как таблицы (к которой можно выполнить SQL запрос). Технически, Spark SQL запросы, компилируются в операции над RDD (Resilient Distributed Dataset — абстракция нижнего уровня в Apache Spark). В Spark SQL реализован ANSI стандарт языка SQL, при этом поддерживаются не только запросы (так называемые  DML операции), но и операции над таблицами и view (DDL операции). Созданные с помощью Spark SQL таблицы могут быть доступны в других системах управления данными, например, в Apache Hive. Spark SQL — это независимая Далее …