Ускорение в 40 раз и другие фишки SparkR в Apache Spark 3.0

Spark, обработка данных, большие данные, Big Data, SQL, Python, R

Вчера мы рассказывали про нововведения в Apache Spark 3.0 и упомянули про улучшения в SparkR. Сегодня рассмотрим, почему в новой версии фреймворка вызов пользовательских функций стал быстрее в 40 раз и какие еще проблемы работы с R были решены в этом релизе. Что не так со SparkR: десериализация и особенности структур данных Одним из достоинств Apache Spark считается богатый API: помимо Java, Scala и Python, этот Big Data фреймворк также позволяет работать с языком R, который считается весьма популярным в области анализа данных, о чем мы писали здесь. Однако, на практике при работе со SparkR можно было столкнуться со следующими трудностями [1]: неоднозначность типовых структурах данных. В языке R frame – это объект в оперативной памяти (in-memory) в виде списка векторов одинаковой Далее …

Apache Spark 3.0: что нового?

Spark, обработка данных, большие данные, Big Data, SQL, Python, R, PySpark

Чтобы сделать наши курсы по Spark еще более интересными и добавить в них самые актуальные тренды, сегодня мы расскажем о новом релизе этого Big Data фреймворка. Читайте далее, что нового в Apache Spark 3.0 и почему Spark SQL стал еще лучше. 10 лет в Big Data или немного истории В июне 2020 года вышел новая версия Apache Spark – 3.0. Примечательно, что в этом году проект празднует первый серьезный юбилей – 10 лет. Напомним, Apache Spark, как и многие Big Data проекты, начал свой путь из академической среды – исследовательской лаборатории AMPlab Калифорнийского университета Беркли, которая специализировалась на вычислениях с интенсивным использованием данных. Команда ученых AMPlab создала новый движок для решения проблем с обработкой больших объемов данных, одновременно предоставив API Далее …

Зачем менеджеру язык программирования R: 7 причин освоить аналитический инструмент Big Data и Machine Learning

Big Data, Большие данные, машинное обучение, Machine Learning, язык программирования R, программирование, бизнес, люди, маркетинг, HR, управление

Мы уже рассказывали, зачем HR-специалисту большие данные, как Big Data и Machine Learning помогают PR-менеджеру в управлении корпоративной репутацией, а маркетологу в формировании персональных рекламных предложений. Сегодня поговорим об одном из средств реализации этих и других бизнес-задач – языке программирования R и рассмотрим 7 причин, почему вам необходимо освоить этот инструмент управленческой аналитики. Что такое R, как работает и где используется этот язык программирования R — мультипарадигмальный интерпретируемый язык программирования для статистической обработки данных и работы с графикой, разработанный в 1993 году в Оклендском университете технологий (Новая Зеландия). Еще так называется свободная программная среда вычислений с открытым исходным кодом, предназначенная для работы с этим языком. R поддерживает широкий спектр статистических и численных методов, постоянно дополняется и расширяется за счет пакетов Далее …