Еще больше и быстрее: извлечение данных из Neo4j с Apache Arrow

Автор Категория ,
Еще больше и быстрее: извлечение данных из Neo4j с Apache Arrow

Дополняя наши курсы по аналитике больших данных в бизнес-приложениях новыми полезными примерами, сегодня рассмотрим, как Apache Arrow помогает повысить производительность извлечения данных из Neo4j с помощью их колоночного представления и…

Автоматическая диагностика и исправление сбоев в платформе данных Netflix c Apache Spark, Kafka, Flink и другими технологиями Big Data

Автор Категория , , ,
Автоматическая диагностика и исправление сбоев в платформе данных Netflix c Apache Spark, Kafka, Flink и другими технологиями Big Data

Чтобы сделать наши курсы для дата-инженеров еще более интересными, сегодня рассмотрим практический пример построения инфраструктуры для автоматической диагностики и исправления ошибок пакетной и потоковой обработки данных в Netflix. Комплексная система…

Spark NLP 3.4.0: новый релиз ML-библиотеки для Apache Spark 3.2.x на Scala 2.12

Автор Категория ,
Spark NLP 3.4.0: новый релиз ML-библиотеки для Apache Spark 3.2.x на Scala 2.12

2022 год только начался, а John Snow Labs уже радует разработчиков ML-приложений новым релизом библиотеки Spark NLP. Ключевые фичи 3.4.0 для версии Apache Spark 3.2.x на Scala 2.12: новые GPT-2…

Миллиарды сообщений в секунду: микросервисная ML-система на Apache Kafka и DynamoDB

Автор Категория , ,
Миллиарды сообщений в секунду: микросервисная ML-система на Apache Kafka и DynamoDB

В этой статье разберем кейс бразильской фудтех-компании Ifood по реализации микросервисной ML-системы на Apache Kafka и serverless NoSQL-СУБД DynamoDB с пропускной способностью миллиарды сообщений в секунду. Сложности масштабирования микросервисов и…

Как организовать Feature Engineering на SQL-запросах: инженерия Data Science

Автор Категория ,
Как организовать Feature Engineering на SQL-запросах: инженерия Data Science

В рамках наших курсов для дата-инженеров и специалистов в области Data Science, сегодня рассмотрим, как реализовать один из важнейших этапов машинного обучения – Feature Engineering. Читайте далее, как генерировать признаки…

Greenplum с PXF и глубокое обучение в Apache MADlib для классификации изображений

Автор Категория , ,
Greenplum с PXF и глубокое обучение в Apache MADlib для классификации изображений

Недавно мы рассказывали про оптимизацию SQL-запросов в PXF – интеграционном фреймворке Greenplum. Сегодня рассмотрим, как этот способ обращения к внешним источникам данных можно применить к задачам машинного обучения на примере…

Синергия Apache Airflow и Ray для MLOps-конвейеров: инженерия Data Science

Автор Категория , ,
Синергия Apache Airflow и Ray для MLOps-конвейеров: инженерия Data Science

MLOps и построение конвейеров машинного обучения – одни из самых актуальных задач современной Data Science. Сегодня рассмотрим, чем совместное использование Apache Airflow и Ray полезно для дата-инженера и ML-разработчика. Читайте…

Из CSV-файла в GridDB: ETL-конвейер на Apache NiFi для анализа данных временных рядов

Автор Категория , ,
Из CSV-файла в GridDB: ETL-конвейер на Apache NiFi для анализа данных временных рядов

Чтобы добавить в наши курсы для дата-инженеров еще больше полезных примеров, сегодня рассмотрим, как построить конвейер преобразования CSV-файлов и загрузить данные в масштабируемую NoSQL-СУБД GridDB с помощью Apache NiFi. Краткий…

Машинное обучение для обогащения графа торгового ассортимента: кейс H&M

Автор Категория ,
Машинное обучение для обогащения графа торгового ассортимента: кейс H&M

Продвигая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим работу Data Science исследователей из Пизанского университета и сотрудников крупного ритейлера H&M по анализу данных торгового ассортимента…

Потоковый конвейер обработки видео с Apache Kafka и алгоритмами Machine Learning

Автор Категория ,
Потоковый конвейер обработки видео с Apache Kafka и алгоритмами Machine Learning

Сегодня рассмотрим пример построения интеллектуальными конвейера потоковой обработки видео с Apache Kafka и алгоритмами машинного обучения. Читайте далее, зачем для этого нужен протокол RTSP, что такое библиотека Sarama и как…