Что такое Big Data Reconciliation: согласование больших данных c Apache Spark

обучение инженеров данных, курсы дата-инженеров, обучение Spark, курсы Apache Spark, Big Data, Большие данные, обработка данных, архитектура, Spark, Data Lake, облака, SQL, PySpark, AWS Spark

Мы уже рассказывали, почему качество данных является важнейшим аспектом разработки и эксплуатации Big Data систем. Приемлемое для эффективного использования качество массивов информации достигается не только с помощью процессов подготовки датасета к машинному обучению и профилирования данных, но и за счет их согласования. Читайте далее, что такое Data reconciliation, зачем это нужно для бизнеса и как оно реализуется в Apache Spark и AWS. Что такое согласование данных и при чем здесь Big Data Как правило, реализация комплексной Big Data системы, в т.ч. на базе облачных сервисов, например, кластер Hadoop в Google DataProc или аналитика больших данных на веб-сервисах Amazon, начинается c репликации данных из исходных реляционных СУБД в единый репозиторий  — озеро данных (Data Lake). Однако, прежде чем приступить к анализу Далее …

Как подготовить датасет к Machine Learning с PySpark и построить систему потоковой аналитики больших данных на Apache Kafka и ELK: пример прогнозирования CTR

курсы по большим данным и машинному обучению, обучение Big Data и Machine Learning, аналитика больших данных в реальном времени обучение на примерах, Big Data, Kafka, архитектура, Большие данные, маркетинг, обработка данных, предиктивная аналитика, реклама, машинное обучение, Machine Learning, Spark, Python, PySpark, Elasticsearch

В продолжение разговора о применении технологий Big Data и Machine Learning в рекламе и маркетинге, сегодня рассмотрим архитектуру системы прогнозирования конверсии рекламных объявлений. Читайте далее, как организовать предиктивную аналитику больших данных на Apache Kafka и компонентах ELK-стека (Elasticsearch, Logstash, Kibana), почему так важно тщательно подготовить данные к машинному обучению, какие функции PySpark помогают сделать это и на что обратить внимание при настройке Spark-кластера. Строим систему потоковой аналитики Big Data на Apache Kafka и Kibana через Logstash и Elasticsearch Начнем с постановки задачи: требуется спрогнозировать конверсию рекламных объявлений, т.е. вычислить CTR-рейтинг (click through rate) или показатель кликабельности. Эта важная метрика эффективности интернет-маркетинга определяет отношение числа кликов на рекламное объявление к числу показов и измеряется в процентах. К примеру, если реклама была Далее …

Насколько ты знаешь Apache Spark: открытый тест на знание популярного Big Data фреймворка

курсы по Spark, Apache Spark для начинающих открытый тест, обучение больших данных, большие данные, основы Big Data бесплатный тест

Обучение Apache Spark, Kafka, Hadoop и прочим технологиям Big Data – это не только курсы, теоретические статьи и практические задания, но и проверка полученных знаний. Поэтому сегодня мы предлагаем вам открытый интерактивный тест по основам Спарк для начинающих. Проверьте, насколько хорошо вы знакомы с особенностями администрирования и эксплуатации этого популярного фреймворка обработки больших данных, ответив на 10 вопросов о Spark Core, SQL, Streaming и MLLib.   Насколько ты знаешь основы Apache Spark: интерактивный тест для начинающих Продолжая разговор про Apache Spark и основы больших данных, сегодня вам предлагается интерактивный тест из 10 вопросов на знание основ и простых задач, которые часто встречаются на практике при администрировании кластеров и разработке Спарк-приложений. Ответы на многие из этих вопросов мы разбирали в статьях Далее …

Конвейрезируй это: как построить ML-pipeline в Apache Spark MLLib

курсы по Spark, Spark MLLib, машинное обучение в Apache Spark, курсы по машинному обучению и большим данным, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Machine Learning, машинное обучение, MLOps, Python, PySpark

Сегодня поговорим про особенности построения конвейеров машинного обучения в Apache Spark. Читайте далее, как Spark MLLib реализует идеи MLOps, что такое трансформеры и оценщики, из чего еще состоит Machine Learning pipeline, как он работает с кодом на Scala, Java, Python и R, а также каковы условия практического использования методов fit(), score() и evaluate() при преобразовании датафреймов. 4 причины строить ML-конвейеры, а не просто модели Machine Learning Конвейеры — это простой способ упорядочить код предварительной обработки данных и ML-моделирования. Непрерывная цепочка связанных работ дает следующие преимущества в промышленном Machine Learning: чистый код за счет автоматизации процедур подготовки данных – выборка, очистка, генерация предикторов (фичей, от англ. feature) и пр.; сокращение ошибок благодаря отработанной последовательности шагов, не получится пропустить или неправильно выполнить Далее …

Как оптимизировать запрос в Apache Spark SQL: Predicate Pushdown vs Projection Pushdown

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Spark SQL Optimization, обработка данных, большие данные, Big Data, PySpark, архитектура, Spark, SQL

Продолжая разбирать практические особенности аналитики больших данных с Apache Spark, сегодня рассмотрим возможности оптимизации SQL-запросов в этом Big Data фреймворке с помощью механизмов предикатного и проекционного сжатия. Читайте далее про реализацию Predicate Pushdown и Projection Pushdown в Apache Spark 3, а также их связь с форматами Parquet и AVRO.   Механизмы оптимизации SQL-запросов или что такое Predicate Pushdown и Projection Pushdown Напомним, при выполнении SQL-запроса, прежде всего происходит его анализ и логическая оптимизация, когда к логическому плану запроса применяются типовые правила. Одним из них является Predicate pushdown – оптимизация, которая применяет условия (предикаты) как можно раньше, предотвращая загрузку ненужных строк. Этот механизм связан с предикатами, которые являются частью SQL-оператора, фильтрующего данные. Предикаты в математической логике аналогичны логическим условиям (clause) в Далее …

Как перейти от Python к PySpark: ТОП-10 рекомендаций по настройке Spark-заданий

курсы по Apache Spark, обучение Spark, курсы по PySpark, обучение Python, курсы Python, обучение PySpark, курсы для разработчиков больших данных, обучение дата-инженеров, обработка данных, большие данные, Big Data, Spark

Говоря про обучение Apache Spark для разработчиков, сегодня мы рассмотрим, как быстро конвертировать Python-скрипты в задания PySpark и какие конфигурационные параметры при этом нужно настроить, чтобы эффективно использовать все возможности распределенных вычислений над большими данными (Big Data). Читайте далее, чем отличаются датафреймы в Pandas и Apache Spark, для чего нужны Arrow и Koalas, а также как оптимально превратить локальный датасет в RDD. 5 шагов от Python-скриптов к заданиям PySpark Прежде всего, напомним, что язык программирования Python ориентирован на локальную работу с данными в пределах одного компьютера, тогда как Apache Spark – это фреймворк распределенных вычислений, где данные распределены по нескольким узлам кластера. Поэтому, несмотря на наличие API-интерфейса Python в Spark, называемого PySpark, чтобы использовать всю мощь распределенной среды, Python-код не Далее …

Преобразование столбцов в PySpark

Обработка данных является одной из самых первоочередных задач анализа Big Data. Сегодня мы расскажем о самых полезных преобразованиях PySpark, которые можно выполнить над столбцами. Читайте далее, как привести значения к 0 или 1, как преобразовать из строк в числа и обратно, а также как обработать недостающие значения(Nan) с примерами в PySpark. Бинаризация: приводим к 0 и 1 Бинаризация используется тогда, когда нужно привести значения к 0 и 1. Бинаризация может использоваться как один из видов категоризации признаков. В PySpark для этого вида преобразования используется класс Binarizer. Binarizer принимает на вход столбцец inputCol и выходной столбец outputCol, а также порог бинаризации. Значения, превышающие пороговое значение, преобразуются в 1.0; значения, которые равны или меньше порогового значения, преобразуются в 0.0. Типы входных столбцов Далее …

3 метода векторизации слов в PySpark

Продолжаем говорить о NLP в PySpark. После того как тексты обработаны: удалены стоп-слова и проведена лемматизация — их следует векторизовать для последующей передачи алгоритмам Machine Learning. Сегодня мы расскажем о 3-x методах векторизации текстов в PySpark. Читайте в этой статье: применение CountVectorizer для подсчета встречаемости слов, уточнение важности слов с помощью TF-IDF, а также обучение Word2Vec для создания векторных представлений слов. CountVectorizer: считаем количество слов CountVectorizer считает встречаемость слов в документе. Под документом может подразумеваться предложение, абзац, пост или комментарий. Результатом применения CountVectorizer являются разреженные вектора (sparse vectors), причём значения сортированы согласно частоте встречаемости слова. У него есть аргумент vocabSize, значение которого устанавливает максимальный размер словаря, по умолчанию он равен 262144. Ниже пример данной векторизации в PySpark, где во 2-м Далее …

Предобработка текстов на русском в PySpark

В одной из прошлых статей мы говорили о методах NLP (natural language processing) в PySpark. Сегодня мы покажем, как обработать реальный датасет, который содержит тексты на русском языке. Читайте у нас: удаление знаков пунктуации, символов и стоп-слов, токенизация и лемматизация на примере новостей на русском языке. Датасет с текстами на русском Воспользуемся датасетом, который содержит более 20000 новостей на русском языке от 4 новостных ресурсов (lenta.ru, meduza.io, ria.ru, tjournal.ru). Тексты новостей не очищены и могут содержать различные специальные символы. Скачать датасет можно на странице Kaggle или воспользоваться Kaggle API, о котором писали тут. При чтение датасета нужно обязательно указать quote=»\»», escape=»\»», поскольку поля с текстовыми данными заключены в кавычки. Вот так это выглядит в Python: import findspark findspark.init() from pyspark.sql Далее …

Как нормализовать данные в PySpark перед обучением ML-моделей

В прошлый раз мы говорили о методах NLP в PySpark. Сегодня рассмотрим методы нормализации и стандартизации данных модуля ML библиотеки PySpark. Читайте в нашей статье: применение Normalizer, StandardScaler, MinMaxScaler и MaxAbsScaler для нормализация и стандартизации данных. Нормализация и стандартизация — методы шкалирования данных Нормализация (normalization) и стандартизация (standardization) являются методами изменения диапазонов значений — шкалирования. Шкалирование особенно полезно в машинном обучении (Machine Learning), поскольку разные атрибуты могут измеряться в разных диапазонах, или значения одного атрибута варьируются слишком сильно. Например, один атрибут имеет диапазон от 0 до 1, а второй — от 1 до 1000. Для задачи регрессии второй атрибут оказывал бы большое влияние на обучение, хотя не факт, что он является более важным, чем первый. Нормализация и стандартизация отличаются своими Далее …