Новая версия Apache Spark

В прошлом месяце Apache Spark выпустили свою последнюю версию — Apache Spark 2.4.0. Это пятая версия в серии 2.x. В этой версии появляется метод Барьерной синхронизации для лучшей интеграции с системами глубокого обучения. Apache Spark 2.4.0 содержит более 30 встроенных функций и функций более высокого порядка для работы со сложными типами данных. Эти функции работают с Scala 2.12 и улучшают интеграцию K8s (Kubernetes). Новая версия также фокусируется на удобстве использования и стабильности. Что нового в Apache Spark 2.4.0? 1) Встроенная поддержка Apache Avro — популярного формата сериализации данных. Теперь разработчики могут считывать и записывать свои данные в Avro формате, прямо в Apache Spark 2) Устранение ограничения на размер блока 2 ГБ 3) Улучшения Pandas UDF Большие перемены: 1) Apache Spark Далее …

10-14 декабря курс «Администрирование кластера Hadoop»

Практические занятия по установке, конфигурированию и поддержке кластера под управлением Cloudera Manager, настройка безопасности Kerberos, мониторинг, восстановление, резервное копирование.   Related Posts:HDDE: Hadoop для инженеров данныхАдминистрирование кластера HadoopSPARK: Администратор кластера Apache SparkBDAM: Аналитика больших данных для руководителей