Чем похожи CRISP-DM и BABOK®Guide: бизнес-анализ в Data Science

цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, цифровая экономика, BABOK, CRISP-DM, бизнес-анализ, подготовка данных, Data Science, Data Mining

Мы уже рассказывали, что цифровизация и другие масштабные проекты внедрения технологий Big Data должны обязательно сопровождаться процедурами бизнес-анализа, начиная от выявления требований на старте до оценки эффективности уже эксплуатируемого решения. Сегодня рассмотрим, как задачи бизнес-анализа из руководства BABOK®Guide коррелируют с этапами методологии исследования данных CRISP-DM, которая считается стандартом де-факто в области Data Science.

Еще раз про CRISP-DM: что это и из чего состоит

CRISP-DM (Cross-Industry Standard Process for Data Mining) — это наиболее распространенная на практике методология выполнения Data Science проектов, которую принято называть межотраслевым стандартным процессом исследования данных. Он описывает жизненный цикл Data Science проектов в следующих 6 фазах, каждая из которых включает ряд задач:

  1. понимание бизнеса (Business Understanding), где через оценку текущей ситуации определяются бизнес-цели и требования, а также разрабатывается предварительный план проекта;
  2. начальное изучение данных (Data Understanding), включая их сбор, описание, исследование (поиск закономерностей, формирование гипотез) и проверку качества;
  3. подготовка данных (Data Preparation), когда из исходного набора данных формируется датасет для работы с моделями машинного обучения (Machine Learning) путем выполнения соответствующих операций Data Preparation – выборка очистка, генерация признаков, интеграция, форматирование, о чем мы писали здесь;
  4. моделирование (Modeling), где выбираются алгоритмы, пишутся тесты, строятся и обучаются модели Machine Learning, а также выполняется настройка их параметров и оценка качества;
  5. оценка решения (Solution Evaluation), когда качество ML-моделей анализируется с точки зрения достижения поставленных бизнес-целей и определяются дальнейшие шаги по улучшению результатов;
  6. внедрение (Deployment), которое предполагает развертывание полученных ML-моделей в промышленную эксплуатацию (production), включая разработку финальных отчетов по всему проекту (review).
CRISP-DM, обработка данных, Big Data, Большие данные, жизненный цикл, Machine Learning, машинное обучение
Фазы CRISP-DM

Бизнес-анализ по BABOK®Guide

Если посмотреть на этот цикл работы с данными с точки зрения руководства по бизнес-анализу BABOK®Guide, можно найти интересные корреляции. Напомним, BABOK описывает набор задач профессиональной деятельности бизнес-аналитика, структурируя их по 6 областям знаний:

  • Планирование и мониторинг бизнес-анализа (Business Analysis Planning and Monitoring) для организации деятельности бизнес-аналитиков и координации их усилий;
  • Выявление и сотрудничество (Elicitation and Collaboration)с заинтересованными сторонами (стейкхолдерами) при выявлении и уточнении их потребностей, а также подтверждении результатов анализа; 
  • Управление жизненным циклом требований (Requirements Life Cycle Management)и технических проектов (дизайнов) через процедуры их поддержки и сопровождения от момента возникновения до устаревания; 
  • Анализ стратегии (Strategy Analysis) изменений предприятия от текущего состояния к желаемому, включая описание процессов и структур «как есть» (as is), определение желаемых показателей (as to be), анализ рисков и разработку оптимальных способов достижения запланированного будущего; 
  • Анализ требований и определение дизайнов (Requirements Analysis and Design Definition), где непосредственно выполняется разработка требований и технических проектов через их определение и моделирование, процедуры верификации и валидации, а также производится оценка потенциальной ценности предлагаемого решения. 
  • Оценка решения (Solution Evaluation), внедренного в каком-то виде (прототип или полностью готовый продукт), когда анализируются его фактические показатели производительности с учетом приносимой бизнесу ценности, а разрабатываются рекомендаций по улучшению.
Business Analysis Body of Knowledge области знаний
Взаимосвязи между областями знаний BABOK

CRISP-DM и BABOK: что общего

Накладывая области знаний бизнес-анализа по BABOK на цикл CRISP-DM, получаем следующие выводы:

  • фаза «Понимание бизнеса (Business Understanding)» в CRISP-DM включает задачи областей знаний BABOK «Выявление и сотрудничество (Elicitation and Collaboration)», когда требуется взаимодействовать с заказчиками, потенциальными пользователями и другими стейкхолдерами, «Анализ стратегии (Strategy Analysis)» для оценки текущего и проектирования будущего состояния, достичь которого поможет разрабатываемый проект, а также «Анализ требований и определение дизайнов (Requirements Analysis and Design Definition)», когда описываются модели текущих и будущих бизнес-процессов, систем и структур;
  • фаза «Оценка решения (Solution Evaluation)» CRISP-DM соответствует аналогичной области знаний BABOK, причем не только названием, поскольку здесь ведется не только непосредственная оценка результатов ML-моделирования, а измеряется эффективность всего решения (его программно-алгоритмической части, hardware и прочих компонентов по отдельности, а также в целом), далее данные показатели анализируются на предмет достижения запланированной полезности для бизнеса, описываются ограничения разработанного решения и среды, в которой планируется его использовать, а также формируются рекомендации по увеличению его ценности;
  • задача «Планирование мониторинга и поддержки разработанного решения» в фазе «Внедрение (Deployment)» CRISP-DM аналогична целой области знаний «Планирование и мониторинг бизнес-анализа (Business Analysis Planning and Monitoring)» BABOK, которая является своего рода фреймворком для работы аналитика, интегрируя методы и инструменты организации профессиональной деятельности как в целом, так и в рамках отдельного проекта. Подчеркнем, что мы отметили общее соответствие операций планирования, мониторинга и поиска возможностей улучшения в разных профессиональных направлениях, а не говорим о совпадении инструментальных и технологических аспектов. Это означает, что, например, при планировании мониторинга и поддержки разработанного решения CRISP-DM фокусируется на отслеживании работоспособности внедренных в production ML-моделей, а BABOK имеет ввиду все рабочие задачи бизнес-аналитика, во всех областях знаний.
BABOK, CRISP-DM
Области знаний BABOK в CRISP-DM

Таким образом, сходство многих задач CRISP-DM и руководства BABOK®Guide еще раз подчеркивает важность бизнес-анализа в проектах цифровизации, включая исследования Data Science и внедрение технологий Big Data. Завтра мы продолжим разговор про CRISP-DM и рассмотрим, как эта методология расширяется методами Agile и средствами DevOps, превращаясь в новую парадигму MLOps.

Как эффективно организовать деятельность по бизнес-анализу в проектах цифровизации частного бизнеса или цифровой трансформации государственных и муниципальных предприятий, вы узнаете на наших специализированных курсах в лицензированном учебном центре обучения и повышения квалификации разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве: