Курсы Big Data, Hadoop, Arenadata, Kafka и Spark

19Фев

Databricks Arc vs Splink: автоматическое связывание данных в промышленных масштабах

Автор Анна Вичуговав категории Machine Learning

связывание данных Arc Splink , обработка больших данных, глубокий анализ данных, качество больших данных, Школа Больших Данных Учебный Центр Коммерсант

Зачем Databricks выпустил Arc, чем это отличается от Splink, и как эти инструменты позволяют решать проблему связывания данных с помощью алгоритмов машинного обучения. Как работает связывание данных Продолжая разговор про качество данных и разрешение сущностей (entity resolution) , сегодня подробно рассмотрим этап связывания записей с использованием логики на основе правил...

18Фев

Знай своего клиента: качество данных с identity resolution в Zingg и Splink

Автор Анна Вичуговав категории Machine Learning, Use Cases, Цифровая трансформация

качество данных, обработка больших данных, глубокий анализ данных, entity identity resolution, , Школа Больших Данных Учебный Центр Коммерсант

Как качество данных связано с разрешением сущностей, чем entity resolution отличается от identity resolution, зачем нужны графы идентичности, как их построить и где использовать. Борьба за качество данных с entity resolution Результаты аналитической обработки данных напрямую зависят от их качества, о ключевых показателях и задачах обеспечения которого мы писали здесь....

10Дек

Барьерный режим выполнения в Apache Spark и при чем здесь глубокое обучение

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

Spark MLмашинное обучение барьерный режим выполнения, разработка Spark-приложений примеры курсы обучение

Что такое барьерный режим выполнения в Apache Spark, чем он отличается от вычислительной модели MapReduce, как связан с глубоким машинным обучением и где используется на практике. Что такое барьерный режим выполнения в Apache Spark Способ выполнения заданий Spark определяется режимом выполнения приложения, заданным на уровне фреймворка. На платформе. Именно от...

24Ноя

Кластерный анализ графов с медоидами: алгоритм k-medoids

Автор Анна Вичуговав категории Machine Learning, Neo4j, Блог

анализ графов, Data Science, Graph Data Science, k-medoids, обучение аналитиков данных, Школа Больших Данных УЦ Коммерсант

Что такое алгоритм k-medoids, чем он отличается от k-means и как этот метод кластеризации применяется для анализа графов: принципы и инструменты. Что такое медоид и как устроен алгоритм кластеризации k-medoids Кластеризация — это метод машинного обучения для поиска кластеров или сообществ в наборе данных. Цель в том, чтобы найти кластеры,...

20Ноя

Кибербезопасность в MLOps: угрозы и лучшие практики

Автор Анна Вичуговав категории Machine Learning, Блог

информационная безопасность и защита данных и систем машинного обучения, MLOps примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Почему безопасность ML-систем становится все более важным вопросом и как ее обеспечить: MLOps-подходы, практики и технологии защиты данных, моделей машинного обучения, а также вычислительных и инфраструктурных конвейеров. Защита данных для машинного обучения В связи с активным внедрением система машинного обучения в производственное использование, вопрос безопасности становится все более актуальным. ML-системы...

13Ноя

Что такое LLMOps или MLOps для больших языковых моделей

Автор Анна Вичуговав категории Machine Learning, Блог

машинное обучение примеры курсы MLOps, курсы по MLOps, MLOps LLM LLMOpa, курсы ML Machine Learning Data Science, обучение инженеров Big Data, инженерия больших данных, Школа Больших Данных Учебный центр Коммерсант

Зачем управлять трансферным обучением больших языковых моделей и что входит в это управление: знакомимся с расширением MLOps для LLM под названием LLMOps. Что такое LLMOps Большие языковые модели, воплощенные в генеративных нейросетях (ChatGPT и прочие аналоги), стали главной технологией уходящего года, которая уже активно используется на практике как частными лицами,...

04Ноя

MLOps с Tecton и Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Machine Learning, Блог

MLOps AirFlow Tecton, MLOps ML AirFlow оркестрация конвейеров машинного обучения примеры, машинное обучение примеры курсы MLOps, курсы по Airflow, администрирование и использование Airflow, Airflow для инженера данных, Apache Airflow обучение, курсы дата-инженеров и администраторов, обучение инженеров Big Data, инженерия больших данных, AirFlow применение, data pipeline, AirFlow инженерия данных обучение, Школа Больших Данных Учебный центр Коммерсант

Что представляет собой MLOps-платформа Tecton и как запустить на ней конвейеры машинного обучения, используя провайдер Tecton-AirFlow, чтобы управлять ресурсами Tecton в этом ETL-оркестраторе. Что такое Tecton и при чем здесь MLOps Поскольку концепция MLOps направлена на безбарьерную автоматизацию всех этапов жизненного цикла систем машинного обучения, для этого нужны специализированные средства....

17Окт

Машинное обучение с Greenplum: обзор ML-расширений

Автор Анна Вичуговав категории Greenplum, Machine Learning, Блог

машинное обучение Greenplum и PostgreSQL, расширения Greenplum и PostgreSQL, ИИ и векторные СУБД, обучение Data Science примеры курсы обучение, NoSQL векторные базы данных примеры курсы обучение, администратор дата-инженер архитектор больших данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как использовать Greenplum в проектах машинного обучения: знакомимся с расширением PostgresML и модулем pgvector. Возможности и ограничения плагинов, превращающих MPP-СУБД в полноценный MLOps-инструмент. Как превратить Greenplum в векторную базу данных с расширением pgvector Будучи вариацией PostgreSQL с механизмами массово-параллельной загрузки, Greenplum отлично справляется с огромным объемом данных. Однако, к хранилищам...

09Окт

Автоматизированное тестирование в MLOps: что и как проверять?

Автор Анна Вичуговав категории Machine Learning, Блог

тестирование ML, fdnjntcnbhjdfybt Ьфсршту дуфктштпб vfibyyjt j,extybt ntcnbhjdfybt ьДЩзыб обучение MLOps , курсы MLOps , обучение Machine Learning, Machine Learning курсы примеры, Machine Learning MLOps , машинное обучение примеры курсы, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали про особенности тестирования систем машинного обучения. Чтобы не повторяться, сегодня рассмотрим фреймворки для реализации идей MLOps, а также рассмотрим, какие тесты должны быть пройдены для проверки работоспособности ML-продукта. 3 категории тестов для ML-систем Согласно концепции MLOps, полный конвейер разработки включает в себя три основных компонента: конвейер данных,...

17Сен

RAG-приложения и Neo4j: поддержка векторного индекса для LLM

Автор Анна Вичуговав категории Machine Learning, Neo4j, NoSql, Блог

векторная индексация в Neo4j, графы и машинное обучение, LLM и RAG, LLM RAG большие языковые модели примеры курсы обучение, Neo4j RAG LLM, Machine Learning Deep Learning, ИИ графы и векторные СУБД, машинное обучение, nosql Neo4j ML, обучение Data Science примеры курсы обучение, NoSQL векторные базы данных ИИ примеры курсы обучение, MLOps архитектура больших данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что не так с большими языковыми моделями, как RAG-приложения расширяют возможности LLM и зачем в графовой СУБД Neo4j добавлена поддержка векторного индекса. Зачем нужны RAG-приложения: ограничения базовых LLM-сетей С появлением ChatGPT и других генеративных нейросетей, большие языковые модели (LLM, Large Language Models) стали активно применяться для решения множества бизнес-задач, связанных...