5 лучших практик работы с кэшем в Apache Spark SQL

курсы Apache Spark, обучение Spark, обработка данных, большие данные, Big Data, Spark, программирование, SQL, Spark SQL

Продолжая рассказывать про курсы Apache Spark для разработчиков на практических примерах, сегодня рассмотрим, как кэширование данных позволяет оптимизировать распределенные вычисления в этом Big Data фреймворке. Читайте далее, как ускорить выполнение запросов в Spark SQL, чем отличаются функции cache() и persist(), из чего состоит план запроса и каковы альтернативы кэшированию данных для повторного использования вычислений. Как устроено кэширование данных в Spark SQL Кэширование данных в Apache Spark SQL — это весьма популярный способ повышения производительности приложения за счет повторного использования некоторых вычислений. Однако, чтобы эффективно использовать его, следует помнить о некоторых особенностях настройки Spark-приложений. Часть этих рекомендаций мы разбирали вчера, на примере перехода от локальных Pyhon-скриптов к распределенным заданиям PySpark. Подобные лучшие практики (best practices) существуют и для Spark SQL. Напомним, Далее …

Как перейти от Python к PySpark: ТОП-10 рекомендаций по настройке Spark-заданий

курсы по Apache Spark, обучение Spark, курсы по PySpark, обучение Python, курсы Python, обучение PySpark, курсы для разработчиков больших данных, обучение дата-инженеров, обработка данных, большие данные, Big Data, Spark

Говоря про обучение Apache Spark для разработчиков, сегодня мы рассмотрим, как быстро конвертировать Python-скрипты в задания PySpark и какие конфигурационные параметры при этом нужно настроить, чтобы эффективно использовать все возможности распределенных вычислений над большими данными (Big Data). Читайте далее, чем отличаются датафреймы в Pandas и Apache Spark, для чего нужны Arrow и Koalas, а также как оптимально превратить локальный датасет в RDD. 5 шагов от Python-скриптов к заданиям PySpark Прежде всего, напомним, что язык программирования Python ориентирован на локальную работу с данными в пределах одного компьютера, тогда как Apache Spark – это фреймворк распределенных вычислений, где данные распределены по нескольким узлам кластера. Поэтому, несмотря на наличие API-интерфейса Python в Spark, называемого PySpark, чтобы использовать всю мощь распределенной среды, Python-код не Далее …

От open-source до Confluent: 3 клиента Python для Apache Kafka

курсы по Apache Kafka, Kafka обучение, обучение большим данным, Кафка для разработчиков, Apache Kafka for developers, Apache Kafka Python, обработка данных, большие данные, Big Data, Kafka, Python, librdkafka, PyKafka, Kafka-Python

Развивая наш новый курс по Apache Kafka для разработчиков, сегодня мы рассмотрим 3 способа о взаимодействии с этой популярной Big Data платформой потоковой обработки событий с помощью языка Python, который считается самым распространенным инструментом в Data Science. Читайте далее, что такое librdkafka, чем PyKafka отличается от Kafka-Python и почему решение от Confluent предпочтительнее других вариантов. Как работать с Apache Kafka средствами Python Обычно разработчики Big Data решений применяют Java или Scala для создания приложений Apache Kafka. Однако, с учетом популярности Python в Data Science в частности и широкой распространенности этого языка программирования вообще, многие решения также создаются с использованием этого инструментария. Для использования Python в Kafka существует несколько готовых средств [1]: Kafka-Python – библиотека с открытым исходным кодом от сообщества Далее …

Помнить все: как устранить утечки памяти в приложениях Apache Spark – 7 советов от Disney

курсы Spark, обучение Apache Spark, обработка данных, большие данные, Big Data, Spark

Сегодня рассмотрим Apache Spark с важной для разработчиков распределенных приложений точки зрения, разобрав как в рамках этого Big Data фреймворка справиться с утечками данных при их потоковой передаче. Читайте далее, почему возникает OutOfMemory Exception в Spark-приложениях и как дата-инженеры компании Disney решили эту проблему с нехваткой памяти для JVM. Зачем Disney нужен Apache Spark Streaming и что с ним не так Прежде всего поясним бизнес-контекст рассматриваемого примера: Disney Streaming Services — это подразделение одной из крупнейших мультимедиа-корпораций Disney, которое контролирует все услуги потребительской подписки на цифровое видео. Главная миссия Disney Streaming Service – предоставить пользователю свободу доступа к контенту с любого подключенного устройства, в любое время и в любом месте [1]. Disney Streaming Services использует Apache Spark и Spark Structured Далее …

Зачем менеджеру язык программирования R: 7 причин освоить аналитический инструмент Big Data и Machine Learning

Big Data, Большие данные, машинное обучение, Machine Learning, язык программирования R, программирование, бизнес, люди, маркетинг, HR, управление

Мы уже рассказывали, зачем HR-специалисту большие данные, как Big Data и Machine Learning помогают PR-менеджеру в управлении корпоративной репутацией, а маркетологу в формировании персональных рекламных предложений. Сегодня поговорим об одном из средств реализации этих и других бизнес-задач – языке программирования R и рассмотрим 7 причин, почему вам необходимо освоить этот инструмент управленческой аналитики. Что такое R, как работает и где используется этот язык программирования R — мультипарадигмальный интерпретируемый язык программирования для статистической обработки данных и работы с графикой, разработанный в 1993 году в Оклендском университете технологий (Новая Зеландия). Еще так называется свободная программная среда вычислений с открытым исходным кодом, предназначенная для работы с этим языком. R поддерживает широкий спектр статистических и численных методов, постоянно дополняется и расширяется за счет пакетов Далее …