3 достоинства и пара недостатков Apache Spark на Kubernetes

Автор Категория ,
3 достоинства и пара недостатков Apache Spark на Kubernetes

С учетом тренда на контейнеризацию при разработке и развертывании любых технологий, в т.ч. Big Data, сегодня рассмотрим плюсы и минусы совместного использования Apache Spark с Kubernetes. Читайте далее, как отправить…

Что такое Big Data Reconciliation: согласование больших данных c Apache Spark

Автор Категория , ,
Что такое Big Data Reconciliation: согласование больших данных c Apache Spark

Мы уже рассказывали, почему качество данных является важнейшим аспектом разработки и эксплуатации Big Data систем. Приемлемое для эффективного использования качество массивов информации достигается не только с помощью процессов подготовки датасета…

Как подготовить датасет к Machine Learning с PySpark и построить систему потоковой аналитики больших данных на Apache Kafka и ELK: пример прогнозирования CTR

Автор Категория , , , ,
Как подготовить датасет к Machine Learning с PySpark и построить систему потоковой аналитики больших данных на Apache Kafka и ELK: пример прогнозирования CTR

В продолжение разговора о применении технологий Big Data и Machine Learning в рекламе и маркетинге, сегодня рассмотрим архитектуру системы прогнозирования конверсии рекламных объявлений. Читайте далее, как организовать предиктивную аналитику больших…

Насколько ты знаешь Apache Spark: открытый тест на знание популярного Big Data фреймворка

Автор Категория , ,
Насколько ты знаешь Apache Spark: открытый тест на знание популярного Big Data фреймворка

Обучение Apache Spark, Kafka, Hadoop и прочим технологиям Big Data – это не только курсы, теоретические статьи и практические задания, но и проверка полученных знаний. Поэтому сегодня мы предлагаем вам…

Конвейрезируй это: как построить ML-pipeline в Apache Spark MLLib

Автор Категория , ,
Конвейрезируй это: как построить ML-pipeline в Apache Spark MLLib

Сегодня поговорим про особенности построения конвейеров машинного обучения в Apache Spark. Читайте далее, как Spark MLLib реализует идеи MLOps, что такое трансформеры и оценщики, из чего еще состоит Machine Learning…

Как оптимизировать запрос в Apache Spark SQL: Predicate Pushdown vs Projection Pushdown

Автор Категория ,
Как оптимизировать запрос в Apache Spark SQL: Predicate Pushdown vs Projection Pushdown

Продолжая разбирать практические особенности аналитики больших данных с Apache Spark, сегодня рассмотрим возможности оптимизации SQL-запросов в этом Big Data фреймворке с помощью механизмов предикатного и проекционного сжатия. Читайте далее про…

Как перейти от Python к PySpark: ТОП-10 рекомендаций по настройке Spark-заданий

Автор Категория , ,
Как перейти от Python к PySpark: ТОП-10 рекомендаций по настройке Spark-заданий

Говоря про обучение Apache Spark для разработчиков, сегодня мы рассмотрим, как быстро конвертировать Python-скрипты в задания PySpark и какие конфигурационные параметры при этом нужно настроить, чтобы эффективно использовать все возможности…

Преобразование столбцов в PySpark

Автор Категория , ,
Преобразование столбцов в PySpark

Обработка данных является одной из самых первоочередных задач анализа Big Data. Сегодня мы расскажем о самых полезных преобразованиях PySpark, которые можно выполнить над столбцами. Читайте далее, как привести значения к…

3 метода векторизации слов в PySpark

Автор Категория , ,
3 метода векторизации слов в PySpark

Продолжаем говорить о NLP в PySpark. После того как тексты обработаны: удалены стоп-слова и проведена лемматизация — их следует векторизовать для последующей передачи алгоритмам Machine Learning. Сегодня мы расскажем о…

Предобработка текстов на русском в PySpark

Автор Категория ,
Предобработка текстов на русском в PySpark

В одной из прошлых статей мы говорили о методах NLP (natural language processing) в PySpark. Сегодня мы покажем, как обработать реальный датасет, который содержит тексты на русском языке. Читайте у…