Как увидеть лес за деревьями: что такое Decision Tree и зачем это нужно в Big Data

Big Data, Большие данные, Machine Learning, машинное обучение, системный анализ, Data Mining, предиктивная аналитика

Продолжая насыщать курс Аналитика больших данных для руководителей важными понятиями системного анализа, сегодня мы рассмотрим, что такое дерево решений (Decision Tree). А также расскажем, как этот метод интеллектуального анализа данных (Data Mining) и предиктивной аналитики используется в машинном обучении (Machine Learning), экономике, менеджменте, бизнес-анализе и аналитике больших данных (Big Data).

Как растут деревья решений: базовые основы

Начнем с определения: дерево решений – это математическая модель в виде графа, которая отображает точки принятия решений, предшествующие им события и последствия. Этот метод Data Mining широко используется в машинном обучении, позволяя решать задачи классификации и регрессии [1].

Аналитические модели в виде деревьев решений более вербализуемы, интерпретируемы и понятны человеку, чем другие методы Machine Learning, например, нейронные сети. Дополнительное достоинство Decision Tree – это быстрота за счет отсутствия этапа подготовки данных (Data Preparation), поскольку не нужно очищать и нормализовать датасет [2].

В бизнес-анализе, менеджменте и экономике Decision Tree – это отличный инструмент для наглядного отображения всех возможных альтернатив (сценариев), прогнозирования будущих событий, а также оценки их потенциальной выгоды и рисков. Для этого дерево решений представляют в виде графической схемы, чтобы его проще воспринимать и анализировать. Данный граф состоит из следующих элементов [3].

  • вершины, от которых возможно несколько вариантов, называют узлами. Они показывают возможные ситуации (точки принятия решений);
  • конечные узлы (листья) представляют результат (значение целевой функции);
  • ребра (ветви), соединяющие узлы, описывают вероятности развития событий по этому сценарию.
Decision Tree,системный анализ, аналитика
Пример дерева решений

Обычно многоузловые деревья решений строятся с помощью специального программного обеспечения. Но граф с ограниченным числом вершин можно построить в табличном редакторе или даже вручную. Как это сделать самостоятельно, мы рассмотрим далее на простом примере из управленческой практики.

Строим дерево решений на примере обучения Big Data

Итак, проанализируем кейс построения дерева решений на примере расчета выгоды от обучения сотрудников новой Big Data технологии с целью быстрого выпуска продукта ценой X. При этом возможны следующие альтернативные сценарии:

  • поручить каждому сотруднику самостоятельно освоить нужные подходы, фреймворки и языки программирования в свободное от работы время. Фактические затраты на реализацию такого решения равны нулю, а вероятность успешного освоения технологии для быстрого выпуска продукта оценивается на уровне 30%.
  • выделить w рабочих дней на самостоятельное обучение каждого сотрудника на его рабочем месте. Фактические затраты на реализацию такого решения составляют стоимость рабочего дня каждого сотрудника в день (Z), умноженное на количество дней (w) и число сотрудников (k). Успех ожидается в 50% случаев.
  • организовать корпоративное обучение всех сотрудников в специализированном учебном центре в течении n дней. Затраты на обучения составят совокупную стоимость курсов (Y), а также цену рабочего дня каждого сотрудника в день (Z)*количество дней (n)*число сотрудников (k). При этом сотрудники освоят технологию с вероятностью 98% за n дней (n<w).

Решение

Затраты на реализацию решения

Вероятность успешного освоения технологии для быстрого выпуска продукта ценой X

Выгода

Самостоятельное обучение каждого сотрудника вне работы

0

0,3

X*0,3

Самостоятельное обучение каждого сотрудника на работе

стоимость рабочего дня каждого сотрудника в день (Z)*количество дней (w)*число сотрудников (k)

0,5

X*0,5 – Z*w*k

Организованные курсы для всех сотрудников в учебном центре

цена обучения (Y) + стоимость рабочего дня каждого сотрудника в день (Z)*количество дней (n)*число сотрудников (k)

0,98

X*0,98 – (Y+Z*n*k)

как построить дерево решений
Дерево решений — кейс обучения сотрудников

Сравнив в абсолютных числах выражения 0,3X, (X*0,5 – Z*w*k) и (X*0,98 – Y – Z*n*k), можно выбрать наиболее выгодный вариант. Таким образом, дерево решений позволяет количественно оценить риски, затраты и выгоды возможных альтернатив и выработать оптимальную управленческую стратегию. Не случайно профессиональный стандарт бизнес-аналитика, руководство BABOK, о котором мы рассказывали здесь, включило дерево решений в набор наиболее часто используемых техник [4]. В следующей статье мы расскажем, как деревья решений и другие методы интеллектуального анализа данных реализуются в новом тренде аналитики больших данных — Augmented Analytics.

Другие прикладные понятия системного анализа, важные для принятия управленческих решений, цифровизации бизнеса и аналитики больших данных разбираются на наших образовательных курсах в лицензированном учебном центре обучения и повышения квалификации руководителей и ИТ-специалистов (менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data) в Москве:

расписание компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Смотреть расписание занятий
регистрация на компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Зарегистрироваться на курс

Источники

  1. https://loginom.ru/blog/decision-tree-p1
  2. https://ru.wikipedia.org/wiki/Дерево_решений
  3. http://datareview.info/article/derevya-resheniy-i-algoritmyi-ih-postroeniya/
  4. https://www.skylinetechnologies.com/Blog/Skyline-Blog/May_2019/how-to-use-decision-modeling-bi-requirements