CRISP-DM

CRISP-DM, обработка данных, Big Data, Большие данные, жизненный цикл, Machine Learning, машинное обучение

CRISP-DM (от английского Cross-Industry Standard Process for Data Mining) — межотраслевой стандартный процесс исследования данных. Это проверенная в промышленности и наиболее распространённая методология, первая версия которой была представлена в Брюсселе в марте 1999 года, а пошаговая инструкция опубликована в 2000 году [1]. CRISP-DM описывает жизненный цикл исследования данных, состоящий из 6 фаз, от постановки задачи с точки зрения бизнеса до внедрения технического решения. Последовательность между фазами определена не строго, переходы могут повторяться от итерации к итерации [1]. Все фазы CRISP-DM делятся на задачи, по итогам каждой должен быть достигнут конкретный результат [2]. Рассмотрим подробнее фазы жизненного цикла исследования данных по CRISP-DM [3]: Понимание бизнеса (Business Understanding) – определение целей проекта и требований со стороны бизнеса. Затем эти знания конвертируются в Далее …

SEMMA

SEMMA, Data Mining, обработка данных, CRISP-DM, анализ данных, стандарты ИАД

SEMMA (аббревиатура от английских слов Sample, Explore, Modify, Model и Assess) – общая методология и последовательность шагов интеллектуального анализа данных (Data Mining), предложенная американской компанией SAS, одним из крупнейших производителей программного обеспечения для статистики и бизнес-аналитики, для своих продуктов [1].  Зачем нужен стандарт SEMMA В отличие от другого широко используемого стандарта Data Mining, CRISP-DM, SEMMA фокусируется на задачах моделирования, не затрагивая бизнес-аспекты. Тем не менее, этот стандарт позиционируется как унифицированный межотраслевой подход к итеративному процессу интеллектуального анализа данных [1]. Эта методология не навязывает каких-либо жестких правил, однако, используя ее разработчик располагает научными методами построения концепции проекта, его реализации и оценки результатов проектирования [2].Подход SEMMA сочетает структурированность процесса Data Mining и логическую организацию инструментальных средств для поддержки каждой операции обработки и анализу Далее …