Насколько ты знаешь Apache Spark: открытый тест на знание популярного Big Data фреймворка

Автор Категория , ,
Насколько ты знаешь Apache Spark: открытый тест на знание популярного Big Data фреймворка

Обучение Apache Spark, Kafka, Hadoop и прочим технологиям Big Data – это не только курсы, теоретические статьи и практические задания, но и проверка полученных знаний. Поэтому сегодня мы предлагаем вам…

Конвейрезируй это: как построить ML-pipeline в Apache Spark MLLib

Автор Категория , ,
Конвейрезируй это: как построить ML-pipeline в Apache Spark MLLib

Сегодня поговорим про особенности построения конвейеров машинного обучения в Apache Spark. Читайте далее, как Spark MLLib реализует идеи MLOps, что такое трансформеры и оценщики, из чего еще состоит Machine Learning…

Потоковая обработка событий в Machine Learning и Big Data: основы StreamSQL для начинающих

Автор Категория , ,
Потоковая обработка событий в Machine Learning и Big Data: основы StreamSQL для начинающих

Вчера мы говорили про промышленный Machine Learning в больших данных и рассматривали проблемы микросервисной архитектуры в системах машинного обучения. Продолжая разбирать, как Feature Store повышает эффективность MLOps-процессов, сокращая цикл разработки…

Зачем вам Feature Store или что не так с микросервисами в ML-системах

Автор Категория , , , ,
Зачем вам Feature Store или что не так с микросервисами в ML-системах

Сегодня рассмотрим, когда микросервисные архитектуры не подходят для систем машинного обучения и какие технологии Big Data следует использовать в этом случае. В этой статье мы расскажем, что такое Feature Store,…

Как построить ML-pipeline на Qlik Replicate, Apache Kafka и других технологиях Big Data: архитектура real-time аналитики больших данных

Автор Категория , , ,
Как построить ML-pipeline на Qlik Replicate, Apache Kafka и других технологиях Big Data: архитектура real-time аналитики больших данных

Сегодня поговорим про ETL-процессы в мире Big Data на примере построения непрерывного конвейера поставки больших данных о транзакциях для сервисов машинного обучения. Читайте далее, из чего состоит типичная архитектура такой…

Преобразование столбцов в PySpark

Автор Категория , ,
Преобразование столбцов в PySpark

Обработка данных является одной из самых первоочередных задач анализа Big Data. Сегодня мы расскажем о самых полезных преобразованиях PySpark, которые можно выполнить над столбцами. Читайте далее, как привести значения к…

3 метода векторизации слов в PySpark

Автор Категория , ,
3 метода векторизации слов в PySpark

Продолжаем говорить о NLP в PySpark. После того как тексты обработаны: удалены стоп-слова и проведена лемматизация — их следует векторизовать для последующей передачи алгоритмам Machine Learning. Сегодня мы расскажем о…

Не только AirFlow: Apache Luigi и еще 3 ETL-оркестратора для Big Data Pipeline'ов

Автор Категория , , ,
Не только AirFlow: Apache Luigi и еще 3 ETL-оркестратора для Big Data Pipeline'ов

Чтобы максимально приблизить обучение Airflow к практической работе дата-инженера, сегодня мы рассмотрим, какие еще есть альтернативы для оркестрации ETL-процессов и конвейеров обработки больших данных. Читайте далее, что такое Luigi, Argo,…

Конвейер Big Data для Machine Learning на Apache Kafka: разбираем систему речевой аналитики

Автор Категория , , , ,
Конвейер Big Data для Machine Learning на Apache Kafka: разбираем систему речевой аналитики

В этой статье мы рассмотрим комплексный конвейер (pipeline) обработки больших данных с помощью алгоритмов машинного обучения (Machine Learning) для системы речевого анализа Callinter от китайской компании Fano Labs. Apache Kafka…

Как нормализовать данные в PySpark перед обучением ML-моделей

Автор Категория , ,
Как нормализовать данные в PySpark перед обучением ML-моделей

В прошлый раз мы говорили о методах NLP в PySpark. Сегодня рассмотрим методы нормализации и стандартизации данных модуля ML библиотеки PySpark. Читайте в нашей статье: применение Normalizer, StandardScaler, MinMaxScaler и…