Case Based Reasoning (CBR)

Case Based Reasoning (CBR) — метод решения проблем рассуждением по аналогии, путем предположения на основе подобных случаев (прецедентов). Это способ решения проблем на основе уже известных решений, который широко применяется во всех областях деятельности. Например, в бизнес-аналитике такое сопоставление с эталоном, целенаправленный поиск и внедрение лучших практик со стороны называется бенчмаркингом (Benchmarking) [1]. В Data Mining CBR-подход реализуется в виде методов решения новых задач на основе анализа предыдущего опыта. В частности, в Data Science именно так искусственные нейронные сети (частный случай машинного обучения, Machine Learning) вычисляют результат, вспоминая предыдущие подобные ситуации и повторно используя знания из подобных ситуаций [2]. Таким образом, можно сказать, что Case Based Reasoning — это наиболее распространенный подход к решению проблем, который применим не только к Далее …

Data Mining

Data Mining — процесс поиска в сырых необработанных данных интересных, неизвестных, нетривиальных взаимосвязей и полезных знаний, позволяющих интерпретировать и применять результаты для принятия решений в любых сферах  человеческой деятельности. Представляет собой совокупность методов  визуализации, классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики.   Дополнительно о Data Mining на Википедии

lineage

Data Lineage — линия данных, в т.ч. их происхождение, метаданные о том, что происходит с информацией и где она перемещаются со временем. Линия данных обеспечивает видимость, упрощая возможность отслеживания ошибок до нахождения корневой причины любой проблемы в процессе анализа данных. Data lineage  более специфический термин включающий  бизнес data lineage и технический data lineage. Технический data lineage  создается из актуальных технических метаданных и трассирует поток данных на уровне реальных таблиц, скриптов и statements.  Пример: Informatica Metadata Manager Часто Data Lineage рассматривается как синоним понятия Data Provenance, однако это не совсем корректно.  Подробнее разницу между этими двумя терминами мы описали здесь. Источник: Wikipedia 

provenance

Data provenance — происхождение данных, метаданные, которые обеспечивают исторические изменения записи  и её оригинала. Происхождение данных генерируется сложными трансформациями, такими как workflow, и представляют определенную ценность для data scientist. Data provenance часто используют в контексте high-level рассмотрения преобразования данных для бизнес-пользователя. Происхождение данных часто рассматривается как синоним Data Lineage, однако это не совсем корректно.  Подробнее разницу между этими двумя терминами мы описали здесь. Источник  WikiPedia  

SEMMA

SEMMA, Data Mining, обработка данных, CRISP-DM, анализ данных, стандарты ИАД

SEMMA (аббревиатура от английских слов Sample, Explore, Modify, Model и Assess) – общая методология и последовательность шагов интеллектуального анализа данных (Data Mining), предложенная американской компанией SAS, одним из крупнейших производителей программного обеспечения для статистики и бизнес-аналитики, для своих продуктов [1].  Зачем нужен стандарт SEMMA В отличие от другого широко используемого стандарта Data Mining, CRISP-DM, SEMMA фокусируется на задачах моделирования, не затрагивая бизнес-аспекты. Тем не менее, этот стандарт позиционируется как унифицированный межотраслевой подход к итеративному процессу интеллектуального анализа данных [1]. Эта методология не навязывает каких-либо жестких правил, однако, используя ее разработчик располагает научными методами построения концепции проекта, его реализации и оценки результатов проектирования [2].Подход SEMMA сочетает структурированность процесса Data Mining и логическую организацию инструментальных средств для поддержки каждой операции обработки и анализу Далее …

Естественная классификация

Естественная классификация — разделение (или, наоборот, группировка) предметов и явлений по существенным признакам, характеризующим их внутреннюю общность. В отличие от искусственной классификации, которая сосредоточена на внешних признаках, естественная больше ориентируется на внутреннее содержание исследуемого предмета. В частности, группировка предмета со схожими по сути (овощи, посуда, техника) — это естественная классификация. А группировка объектов по цвету, например, апельсин объединяем с оранжевым мячом, т.к. они похожи по цвету (оранжевый) и форме (круг) — это искусственное классифицирование.  В Data Science, Data Mining и Machine Learning чаще встречается именно искусственная классификация, поскольку анализировать внешние признаки проще. Однако, в более сложной задаче синтеза новых объектов, встречаются элементы естественной классификации. В настоящее время это больше свойственно человеку, чем методам искусственного интеллекта.

Искусственная классификация

Искусственная классификация — разделение объектов по внешнему признаку для придания множеству исследуемых предметов (процессов, явлений) нужного порядка. Вообще в Data Mining, Data Science и машинном обучении (Machine Learning) в частности, искусственная классификация используется в рамках подготовки данных к моделированию, на этапе формирования датасета. Например, Data Scientist может заниматься искусственной классификацией при выборке данных или во время генерации признаков. Кроме того, задача искусственной классификации является частым компонентом многих прикладных моделей Machine Learning, например, когда нужно отнести пользователя к какой-либо категории, проанализировав особенности его поведения на сайте. Также искусственная классификация выполняется при скоринговой оценке клиента по тем или иным его характеристикам, к примеру, при анализе его платежеспособности для выдачи кредита в банке. В отличие от естественной классификации, которая ориентируется в большей степени Далее …

Классификация

отнесение объектов (наблюдений, событий) к одному из заранее известных классов

Машинное обучение

Машинное обучение (Machine Learning) — класс методов искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться

Ошибка распознавания

отношение объектов, неправильно классифицированных в процессе обучения, к общему количеству объектов набора данных, которые принимали участие в обучении

Прогнозирование

установление функциональной зависимости между зависимыми и независимыми переменными

Точность распознавания

Точность распознавания — это отношение объектов, правильно классифицированных в процессе обучения, к общему количеству объектов набора данных, которые принимали участие в обучении. Точность распознавания может оцениваться с помощью матрицы ошибок (confusion matrix), о которой мы рассказываем здесь на примере оценки эффективности прогнозирования спроса с помощью Machine Learning.