Как подготовить датасет к Machine Learning с PySpark и построить систему потоковой аналитики больших данных на Apache Kafka и ELK: пример прогнозирования CTR

курсы по большим данным и машинному обучению, обучение Big Data и Machine Learning, аналитика больших данных в реальном времени обучение на примерах, Big Data, Kafka, архитектура, Большие данные, маркетинг, обработка данных, предиктивная аналитика, реклама, машинное обучение, Machine Learning, Spark, Python, PySpark, Elasticsearch

В продолжение разговора о применении технологий Big Data и Machine Learning в рекламе и маркетинге, сегодня рассмотрим архитектуру системы прогнозирования конверсии рекламных объявлений. Читайте далее, как организовать предиктивную аналитику больших данных на Apache Kafka и компонентах ELK-стека (Elasticsearch, Logstash, Kibana), почему так важно тщательно подготовить данные к машинному обучению, какие функции PySpark помогают сделать это и на что обратить внимание при настройке Spark-кластера. Строим систему потоковой аналитики Big Data на Apache Kafka и Kibana через Logstash и Elasticsearch Начнем с постановки задачи: требуется спрогнозировать конверсию рекламных объявлений, т.е. вычислить CTR-рейтинг (click through rate) или показатель кликабельности. Эта важная метрика эффективности интернет-маркетинга определяет отношение числа кликов на рекламное объявление к числу показов и измеряется в процентах. К примеру, если реклама была Далее …

Конвейрезируй это: как построить ML-pipeline в Apache Spark MLLib

курсы по Spark, Spark MLLib, машинное обучение в Apache Spark, курсы по машинному обучению и большим данным, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Machine Learning, машинное обучение, MLOps, Python, PySpark

Сегодня поговорим про особенности построения конвейеров машинного обучения в Apache Spark. Читайте далее, как Spark MLLib реализует идеи MLOps, что такое трансформеры и оценщики, из чего еще состоит Machine Learning pipeline, как он работает с кодом на Scala, Java, Python и R, а также каковы условия практического использования методов fit(), score() и evaluate() при преобразовании датафреймов. 4 причины строить ML-конвейеры, а не просто модели Machine Learning Конвейеры — это простой способ упорядочить код предварительной обработки данных и ML-моделирования. Непрерывная цепочка связанных работ дает следующие преимущества в промышленном Machine Learning: чистый код за счет автоматизации процедур подготовки данных – выборка, очистка, генерация предикторов (фичей, от англ. feature) и пр.; сокращение ошибок благодаря отработанной последовательности шагов, не получится пропустить или неправильно выполнить Далее …

10 вопросов на знание основ Big Data: открытый интерактивный тест для начинающих

курсы по большим данным, обучение Data Science, обучение Big Data, Big Data и Machine Learning для начинающих, основы Big Data, основы больших данных

Чтобы сделать самостоятельное обучение технологиям Big Data по статьям нашего блога еще более интересным, сегодня мы предлагаем вам простой интерактивный тест по основам больших данных, включая администрирование кластеров, инженерию конвейеров и архитектуру, а также Data Science и Machine Learning.   Тест по основам больших данных для новичков В продолжение темы, как войти в большие данные и с чего начать, вам предлагается интерактивный тест для начинающих изучать технологии Big Data и Data Science из 10 вопросов на знание основ и простых задач, которые часто встречаются на практике. Ответы на многие из этих вопросов мы разбирали в статьях нашего блога. Подробно изучить темы, упоминаемые в тесте, вы сможете вы сможете на курсах Школы Больших Данных в нашем лицензированном учебном центре обучения и Далее …

Потоковая обработка событий в Machine Learning и Big Data: основы StreamSQL для начинающих

курсы по Apache Kafka, Обучение Apache Kafka, промышленный ML, машинное обучение курсы, курсы Big Data для Data Science, Feature Store, StreamSQL, курсы по Spark, обучение Apache Spark, основы машинного обучения и больших данных, инженерия машинного обучения, MlOps

Вчера мы говорили про промышленный Machine Learning в больших данных и рассматривали проблемы микросервисной архитектуры в системах машинного обучения. Продолжая разбирать, как Feature Store повышает эффективность MLOps-процессов, сокращая цикл разработки согласно Agile-идеям, сегодня мы приготовили для вас краткий обзор хранилища признаков StreamSQL. Читайте далее, что такое StreamSQL, как оно устроено, каким образом полезно Data Scientist’у и при чем здесь Big Data технологии потоковой обработки событий: Apache Kafka и Spark Streaming. Что такое StreamSQL и как это работает в Machine Learning Как мы вчера упоминали, StreamSQL.io – это хранилище признаков (фичей, от анг. feature) для моделей машинного обучения, которое ускоряет разработку ML-систем за счет следующих функциональных возможностей [1]: создание фичей с использованием декларативных определений; генерация обучающих датасетов с теми же определениями Далее …

Зачем вам Feature Store или что не так с микросервисами в ML-системах

курсы по Apache Kafka, обучение Kafka, курсы Spark, обучение Apache Spark, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Machine Learning, машинное обучение, MLOps, Data Lake, Kafka, Agile, микросервисная архитектура систем машинного обучения, микросервисы и ML

Сегодня рассмотрим, когда микросервисные архитектуры не подходят для систем машинного обучения и какие технологии Big Data следует использовать в этом случае. В этой статье мы расскажем, что такое Feature Store, как это хранилище признаков для моделей Machine Learning повышает эффективность MLOps-процессов и сокращает цикл разработки ML-систем, а также при чем здесь потоковая обработка событий с Apache Kafka и Spark Streaming. Проблемы микросервисной архитектуры в ML-системах на практическом примере В настоящее время микросервисная архитектура стала стандартом де-факто, который чаще всего применяется для построения различных информационных систем, от небольших приложений до крупных Big Data Платформ. Благодаря автономности каждого микросервиса от других компонентов решения, общая скорость разработки, тестирования и развертывания продукта существенно возрастает, чего и требует основная идея Agile. Обратной стороной этого преимущества Далее …

Как построить ML-pipeline на Qlik Replicate, Apache Kafka и других технологиях Big Data: архитектура real-time аналитики больших данных

курсы по Kafka, Обучение Apache Kafka, курсы Hadoop, обучение Hadoop, обучение инженеров данных, курсы дата-инженеров, инженерия больших данных, обработка данных, большие данные, Big Data, Kafka, архитектура, Data Lake, HBase, Hive, Spark, Hadoop, машинное обучение, Machine Learning, ETL

Сегодня поговорим про ETL-процессы в мире Big Data на примере построения непрерывного конвейера поставки больших данных о транзакциях для сервисов машинного обучения. Читайте далее, из чего состоит типичная архитектура такой системы на базе Apache Kafka, Spark, HBase и Hive, а также почему большинство ETL-инструментов не подходят для потоковой передачи событий и как решить эту проблему с помощью платформ сбора и маршрутизации данных в реальном времени: NiFi, StreamSets Data Collector или Qlik Replicate. Потоковый конвейер Big Data для ML-системы Рассмотрим пример информационной системы, где технологии потоковой передачи Big Data обеспечивают данными сервис машинного обучения (Machine Learning, ML), который принимает решение об обработке платежей по кредитным картам [1]: Apache Kafka выступает источником данных для конвейера загрузки данных в корпоративное озер (Data Lake) Далее …

Преобразование столбцов в PySpark

Обработка данных является одной из самых первоочередных задач анализа Big Data. Сегодня мы расскажем о самых полезных преобразованиях PySpark, которые можно выполнить над столбцами. Читайте далее, как привести значения к 0 или 1, как преобразовать из строк в числа и обратно, а также как обработать недостающие значения(Nan) с примерами в PySpark. Бинаризация: приводим к 0 и 1 Бинаризация используется тогда, когда нужно привести значения к 0 и 1. Бинаризация может использоваться как один из видов категоризации признаков. В PySpark для этого вида преобразования используется класс Binarizer. Binarizer принимает на вход столбцец inputCol и выходной столбец outputCol, а также порог бинаризации. Значения, превышающие пороговое значение, преобразуются в 1.0; значения, которые равны или меньше порогового значения, преобразуются в 0.0. Типы входных столбцов Далее …

3 метода векторизации слов в PySpark

Продолжаем говорить о NLP в PySpark. После того как тексты обработаны: удалены стоп-слова и проведена лемматизация — их следует векторизовать для последующей передачи алгоритмам Machine Learning. Сегодня мы расскажем о 3-x методах векторизации текстов в PySpark. Читайте в этой статье: применение CountVectorizer для подсчета встречаемости слов, уточнение важности слов с помощью TF-IDF, а также обучение Word2Vec для создания векторных представлений слов. CountVectorizer: считаем количество слов CountVectorizer считает встречаемость слов в документе. Под документом может подразумеваться предложение, абзац, пост или комментарий. Результатом применения CountVectorizer являются разреженные вектора (sparse vectors), причём значения сортированы согласно частоте встречаемости слова. У него есть аргумент vocabSize, значение которого устанавливает максимальный размер словаря, по умолчанию он равен 262144. Ниже пример данной векторизации в PySpark, где во 2-м Далее …

Не только AirFlow: Apache Luigi и еще 3 ETL-оркестратора для Big Data Pipeline’ов

курсы Airflow, обучение Airflow, обучение инженеров данных, инженерия данных, Big Data, Большие данные, обработка данных, Airflow, архитектура, администрирование, Spark, DataOps, MLOps, Python, Kubernetes, DevOps, ETL

Чтобы максимально приблизить обучение Airflow к практической работе дата-инженера, сегодня мы рассмотрим, какие еще есть альтернативы для оркестрации ETL-процессов и конвейеров обработки больших данных. Читайте далее, что такое Luigi, Argo, MLFlow и KubeFlow, где и как они используются, а также почему Apache Airflow все равно остается лучшим инструментом для оркестрации заданий в области Big Data.   Еще раз об оркестрации задач в Big Data и Machine Learning: что это такое и зачем нужно Обычно развитие data—driven инициатив начинается с ручного управления задачами. Например, для машинного обучения (Machine Learning) это будут процессы очистки данных, обучения моделей, отслеживание результатов и развертывание решений на рабочем сервере (production). Эти процедуры растут и усложняются по мере увеличения команды и продвижения самого продукта.  В частности, растет Далее …

Конвейер Big Data для Machine Learning на Apache Kafka: разбираем систему речевой аналитики

обработка данных, большие данные, Big Data, Kafka, машинное обучение, Machine Learning, искусственный интеллект, NLP, курсы по Kafka, Apache Kafka обучение

В этой статье мы рассмотрим комплексный конвейер (pipeline) обработки больших данных с помощью алгоритмов машинного обучения (Machine Learning) для системы речевого анализа Callinter от китайской компании Fano Labs. Apache Kafka играет ключевую роль в этом аналитическом конвейере, ежедневно обеспечивая бесперебойную стабильность и высокую производительность интеллектуальной обработки нескольких тысяч часов звонков. Читайте далее, как Apache Kafka повысила эффективность NLP-системы для колл-центров Постановка задачи Китайская компания Fano Labs, базирующаяся в Гонконге, разработала собственную интеллектуальную систему анализа речи Callinter для автоматизации работы банковских, страховых, телекоммуникационных и прочих отраслевых колл-центров. Она предназначена для повышения качества сервиса и обнаружение инцидентов с помощью технологий распознавания смысла произносимых слов и эмоций на базе алгоритмов Machine Learning. В частности, анализируя миллионы вызовов ежедневно, система позволяет бизнесу определять потенциальные Далее …