В новой версии Apache Spark

В прошлом месяце Apache Spark выпустили свою последнюю новую версию Apache Spark 2.4.0. Это пятая версия в серии 2.x. В новой версии Apache Spark появляется метод Барьерной синхронизации для лучшей интеграции с системами глубокого обучения. Apache Spark 2.4.0 содержит более 30 встроенных функций и функций более высокого порядка для работы со сложными типами данных. Эти функции работают с Scala 2.12 и улучшают интеграцию K8s (Kubernetes). Новая версия также фокусируется на удобстве использования и стабильности. Что нового в новой версии Apache Spark 2.4.0? 1) Встроенная поддержка Apache Avro — популярного формата сериализации данных. Теперь разработчики могут считывать и записывать свои данные в Avro формате, прямо в Apache Spark 2) Устранение ограничения на размер блока 2 ГБ 3) Улучшения Pandas UDF Большие Далее …