Новая версия Apache Spark

В прошлом месяце Apache Spark выпустили свою последнюю версию — Apache Spark 2.4.0. Это пятая версия в серии 2.x.

В этой версии появляется метод Барьерной синхронизации для лучшей интеграции с системами глубокого обучения. Apache Spark 2.4.0 содержит более 30 встроенных функций и функций более высокого порядка для работы со сложными типами данных. Эти функции работают с Scala 2.12 и улучшают интеграцию K8s (Kubernetes). Новая версия также фокусируется на удобстве использования и стабильности.

Что нового в Apache Spark 2.4.0?

1) Встроенная поддержка Apache Avro — популярного формата сериализации данных. Теперь разработчики могут считывать и записывать свои данные в Avro формате, прямо в Apache Spark

2) Устранение ограничения на размер блока 2 ГБ

3) Улучшения Pandas UDF

Большие перемены:

1) Apache Spark 2.4.0 поддерживает метод Барьерной синхронизации для лучшей интеграции с глубокими системами обучения.

2) Теперь разработчики могут писать приложения Spark с помощью Scala 2.12. Это обеспечивает лучшую совместимость с Java 8, которая позволяет использовать улучшенную сериализацию лямбда-функций.

3) В этой версии Apache Spark с помощью streamingDF.writeStream.foreachBatch(…) вы можете записывать пакетные данные на выходе каждого микропакета.

4) Apache Spark 2.4.0 поддерживает пакет SparkAvro с поддержкой логического типа для повышения производительности и удобства использования.

5) Эта версия Spark также предоставляет возможность использовать формат данных для изображений. Теперь пользователи могут загружать изображения через Spark source reader interface.

df = spark.read.format(«image»).load(«…»)

 

Источники: https://hub.packtpub.com/apache-spark-2-4-0-released/

https://jaxenter.com/apache-spark-2-4-overview-151623.html