3 метода векторизации слов в PySpark

Автор Категория , ,
3 метода векторизации слов в PySpark

Продолжаем говорить о NLP в PySpark. После того как тексты обработаны: удалены стоп-слова и проведена лемматизация — их следует векторизовать для последующей передачи алгоритмам Machine Learning. Сегодня мы расскажем о…

Предобработка текстов на русском в PySpark

Автор Категория ,
Предобработка текстов на русском в PySpark

В одной из прошлых статей мы говорили о методах NLP (natural language processing) в PySpark. Сегодня мы покажем, как обработать реальный датасет, который содержит тексты на русском языке. Читайте у…

Конвейер Big Data для Machine Learning на Apache Kafka: разбираем систему речевой аналитики

Автор Категория , , , ,
Конвейер Big Data для Machine Learning на Apache Kafka: разбираем систему речевой аналитики

В этой статье мы рассмотрим комплексный конвейер (pipeline) обработки больших данных с помощью алгоритмов машинного обучения (Machine Learning) для системы речевого анализа Callinter от китайской компании Fano Labs. Apache Kafka…