Data mining – что это такое?

Data mining – что это такое?

Одним из относительно новых терминов стало словосочетание Data mining, подразумевающее извлечение определенных данных из общего массива, упорядоченного или не упорядоченного.

Работа с большими массивами данных – достаточно новая задача, инструментарий для решения которой в данный момент фактически только прорабатывается и совершенствуется. Подобных вызовов в практике человечества ранее не существовало, поэтому именно теперь формируется фактически новое направление, в котором появляются свои термины и инструменты.

Задачи, решаемые с помощью инструментов Data mining

Инструментарий Data mining используется для решения целого спектра задач. Среди которых:

  • классификация данных по заранее определенным категориям;
  • кластеризация данных на группы, похожие между собой по заданным параметрам;
  • ассоциация – поиск и обработка повторяющихся данных, как цельных, так и участков;
  • прогнозирование – поиск и анализ предстоящих состояний данных на основе информации о их прошлых состояниях;
  • анализ отклонений – исследование данных на нетипичные особенности или изменения, позволяющий обнаруживать вредоносные воздействия;
  • визуализация.

Чтобы решить каждую из этих задач, необходимо проанализировать массив информации, выделить в нем необходимое и обработать его. Для чего и нужны инструменты Data mining.

Сложности работы с большими массивами данных

Практически любой массив данных можно разделить на три уровня:

  • исходные данные – необработанный массив, находящийся в первозданном виде;
  • информация – совокупность обработанных данных, имеющих ту или иную ценность, подлежащих сохранению и дальнейшей обработке;
  • знания – важнейшие данные, часто скрытые от общедоступного просмотра.

Data mining требуется для того, чтобы обрабатывать информацию на любом требуемом уровне, вычленяя из нее искомое.

Поиск по сайту