Зачем вам MLOps: новый подход к Machine Learning в production

MLOps, цифровизация, цифровая трансформация, Big Data, Большие данные, CRISP-DM, Data Science, машинное обучение, Machine Learning, Agile, DevOps

Пока цифровизация воплощает в жизнь концепцию DataOps, мир Big Data вводит новую парадигму – MLOps. Читайте в нашей статье, что такое MLOps, зачем это нужно бизнесу и какие специалисты потребуются при внедрении практик и инструментов сопровождения всех операций жизненного цикла моделей машинного обучения (Machine Learning Operations). Что такое MLOps, почему это стало актуально и при чем тут Big Data По аналогии с DevOps и DataOps, в связи с популяризацией методов Machine Learning и ростом их практических внедрений, у бизнеса появилась потребность в организации непрерывного сотрудничества и взаимодействия между всеми участниками процессов работы с моделями машинного обучения от бизнеса до инженеров и разработчиков Big Data, включая Data Scientist’ов и ML-специалистов. Понятие MLOps еще достаточно молодое, однако с каждым днем оно становится Далее …

Чем похожи CRISP-DM и BABOK®Guide: бизнес-анализ в Data Science

цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, цифровая экономика, BABOK, CRISP-DM, бизнес-анализ, подготовка данных, Data Science, Data Mining

Мы уже рассказывали, что цифровизация и другие масштабные проекты внедрения технологий Big Data должны обязательно сопровождаться процедурами бизнес-анализа, начиная от выявления требований на старте до оценки эффективности уже эксплуатируемого решения. Сегодня рассмотрим, как задачи бизнес-анализа из руководства BABOK®Guide коррелируют с этапами методологии исследования данных CRISP-DM, которая считается стандартом де-факто в области Data Science. Еще раз про CRISP-DM: что это и из чего состоит CRISP-DM (Cross-Industry Standard Process for Data Mining) — это наиболее распространенная на практике методология выполнения Data Science проектов, которую принято называть межотраслевым стандартным процессом исследования данных. Он описывает жизненный цикл Data Science проектов в следующих 6 фазах, каждая из которых включает ряд задач: понимание бизнеса (Business Understanding), где через оценку текущей ситуации определяются бизнес-цели и требования, а также Далее …

5 причин, почему аналитика больших данных иногда выгоднее модного Data Science: взгляд со стороны бизнеса

цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, обработка данных, CRISP-DM, Data Science, Data Scientist

В этой статье мы рассмотрим несколько популярных мифов о Data Science и аналитике больших данных (Big Data), разобрав, когда и почему простое использование BI-систем или облачных DaaS-платформ бывает гораздо эффективнее попыток внедрения алгоритмов машинного обучения (Machine Learning) и прочих методов Data Science в операционные и стратегические бизнес-процессы. Почему 80% Data Science проектов обречены на провал: простая причина больших ошибок в Big Data Начнем с наиболее распространенного в широкой общественности мнения: Big Data есть только у больших компаний, а Data Science мгновенно приносит огромную выгоду, генерируя магические дата-инсайты. На самом деле сегодня достаточно большие объемы данных имеются даже у малого и среднего бизнеса, чья деятельность, в основном, связана с цифровыми технологиями. Например, интернет-магазины и процессинговые центры, а также популярные медиа (блоги, Далее …

Почему каждый Data Scientist должен быть DevOps-инженером в Big Data

Большие данные, Big Data, Agile, цифровая трансформация, цифровая экономика, цифровизация, бизнес-процессы, DevOps, CRISP-DM

С точки зрения бизнеса DevOps (DEVelopment OPerations, девопс) можно рассматривать как углубление культуры Agile для управления процессами разработки и поставки программного обеспечения с помощью методов продуктивного командного взаимодействия и современных средств автоматизации. Сегодня мы поговорим о том, как эта методология используется в Big Data проектах, почему любой Data Scientist становится немного DevOps-инженером в больших данных и насколько это выгодно бизнесу. Как связаны DevOps и Agile В общем случае DevOps, как и Agile, — это набор практик для сокращения сроков выпуска конкурентоспособного программного обеспечения за счет взаимной интеграции процессов его разработки и эксплуатации путем эффективного взаимодействия профильных специалистов (аналитиков, программистов, тестировщиков, администраторов и т.д.) [1]. Этот термин стал популярным с начала 2010-х годов, в рамках развития микросервисной архитектуры, когда программный продукт строится как Далее …

Это не баг, а фича: генерация признаков для Data Mining

Генерация признаков – пожалуй, самый творческий этап подготовки данных (Data Preparation) для машинного обучения (Machine Learning). Этот этап еще называют Feature Engineering. Он наступает после того, как выборка сформирована и очистка данных завершена. В этой статье мы поговорим о том, что такое признаки, какими они бывают и как Data Scientist их генерирует. Признаки для Data Mining: определение и виды Признак (фича, feature) – это переменная, которая описывает отдельную характеристику объекта. В табличном представлении выборки признаки – это столбцы таблицы, а объекты – строки [1]. Входные, независимые, переменные для модели машинного обучения называются предикторами, а выходные, зависимые, – целевыми признаками. Все признаки могут быть следующих видов [2]: бинарные, которые принимают два значения, например, {true, false}, {0,1}, {-1,1}, {«да», «нет»} и т.д.; Далее …

Зачем нужна очистка данных для Data Mining: 10 главных проблем подготовки датасета и способы их решения

очистка данных

Выборка, полученная в результате первого этапа подготовки данных (Data Preparation), еще пока не пригодна для обработки алгоритмами машинного обучения, поскольку информацию необходимо очистить. Сегодня мы расскажем, что такое очистка данных (Data Cleaning) для Data Mining, зачем она нужна и как выполнять этот этап Data Preparation. Что такое очистка данных для Data Mining Очистка данных – процесс обработки выборки для интеллектуального анализа информации (Data Mining) с помощью алгоритмов машинного обучения (Machine Learning). Этот этап, на котором выполняется выявление и удаление ошибок и несоответствий в данных с целью улучшения качества датасета, также называется data cleaning, data cleansing или scrubbing. Некорректная, дублирующаяся или утраченная информация может стать причиной неадекватной статистики [1] и неверных выводов в контексте бизнеса. Поэтому очистка данных является обязательной процедурой Data Далее …

Отберем то, что нужно Data Mining: как сформировать датасет для машинного обучения

выборка, датасет, Data Preparation, интеллектуальный анализ данных

Мы уже рассказывали о важности этапа подготовки данных (Data Preparation), результатом которого является обработанный набор очищенных данных, пригодных для обработки алгоритмами машинного обучения (Machine Learning). Такая выборка, называемая датасет (dataset), нужна для тренировки модели Machine Learning, чтобы обучить систему и затем использовать ее для решения реальных задач. Однако, поскольку в процессе обучения необходимо оценивать качество модели, различают несколько типов выборок. В этом материале мы расскажем, из чего состоит dataset, какие бывают датасеты и как их сформировать. Что такое датасет для Data Mining и из чего он состоит Dataset для машинного обучения – это обработанная и структурированная информация в табличном виде. Строки такой таблицы называются объектами, а столбцы – признаками. Различают 2 вида признаков [1]: независимые переменные – предикторы; зависимые переменные Далее …

Как подготовить данные к моделированию: 5 операций Data Preparation

CRISP-DM, статистика, обработка данных, Machine Learning, машинное обучение, Data Mining

CRISP-DM, SEMMA и другие стандарты Data Mining не случайно выделяют подготовку данных в отдельную фазу. Data Preparation — весьма трудоемкий итеративный процесс, который занимает до 80% всех затрат ресурсов и времени в жизненном цикле Data Mining и включает следующие задачи обработки исходных («сырых») данных [1]: Выборка данных – отбор признаков (features или предикторов) и объектов с учетом их релевантности для целей Data Mining, качества и технических ограничений (объема и типа) [2]; Очистка данных – удаление опечаток, некорректных значений (например, число в строковом параметре и пр.), отсутствующих значений (Missing values или NA), исключение дублей и разных описаний одного и того же объекта, восстановление уникальности, целостности и логических связей [3]; Генерация признаков – создание производных признаков и их преобразование в векторы для модели Далее …

Умный HR: как быстро внедрить Big Data и Machine Learning в управление человеческими ресурсами

Big Data, Большие данные, машинное обучение, Machine Learning, CRISP-DM, PDCA, HR, бизнес, люди, внедрение

Как быстро и эффективно внедрить Big Data и Machine Learning в прикладную область бизнеса для решения практических задач, избежав популярных ошибок Data Scientist — разбираемся на примере HR-направления. Подготовка к внедрению Big Data в HR и не только Зачем HR-специалисту большие данные и какую пользу они принесут управленческим процессам и предприятию в целом, мы уже рассказывали в этой статье. Сегодня поговорим о непосредственном встраивании технологий Big Data в управление персоналом. Внедрение любой новой технологии и, тем более, методологии – процесс длительный и итеративный, состоящий из нескольких этапов, как это предписывает стандарт CRISP-DM, об особенностях работы с которым мы уже рассказывали здесь и здесь. Однако, CRISP-DM – это методическое руководство для Data Scientist, а с точки зрения бизнеса, в частности, для Далее …

20 проблем для Data Scientist, от которых не спасет CRISP-DM

машинное обучение, Machine Learning, обработка данных, Big Data, Большие данные, статистика, Data Science, Data Scientist

Иван Гуз, директор по аналитике и клиентскому сервису Avito, 24.04.2018 на митапе AI Community и AI Today для специалистов по Data Science в офисе компании [1] рассказал о самых главных проблемах, которые подстерегают исследователя данных на практических проектах и от чего не убережет даже подробно проработанный стандарт CRISP-DM. Из его доклада [2] мы выделили топ-20 популярных ошибок и варианты их решений. Часть из них уже упоминалась в статье, посвященной выступлению Станислава Гафарова, руководителя направления по развитию ИТ-систем АО «СберТех» [3], которое состоялось в рамках того же мероприятия [1]. А в сегодняшнем материале мы подробно описываем трудности каждой фазы CRISP-DM – читайте внимательно, чтобы избежать подобных ошибок в своей практике! 5 проблем бизнес-анализа по CRISP-DM Неточная постановка задачи: расплывчатые формулировки и Далее …