Это не баг, а фича: генерация признаков для Data Mining

Генерация признаков – пожалуй, самый творческий этап подготовки данных (Data Preparation) для машинного обучения (Machine Learning). Этот этап еще называют Feature Engineering. Он наступает после того, как выборка сформирована и очистка данных завершена. В этой статье мы поговорим о том, что такое признаки, какими они бывают и как Data Scientist их генерирует.

Признаки для Data Mining: определение и виды

Признак (фича, feature) – это переменная, которая описывает отдельную характеристику объекта. В табличном представлении выборки признаки – это столбцы таблицы, а объекты – строки [1]. Входные, независимые, переменные для модели машинного обучения называются предикторами, а выходные, зависимые, – целевыми признаками. Все признаки могут быть следующих видов [2]:

  • бинарные, которые принимают два значения, например, {true, false}, {0,1}, {-1,1}, {«да», «нет»} и т.д.;
  • номинальные (факторы), которые имеют конечное количество уровней, например, фактор «день недели» имеет именованных 7 уровней: понедельник, вторник и т. д. Факторы могут быть упорядоченными и неупорядоченными. Например, фактор «час суток» имеет 24 уровня и он упорядочен. Фактор «район города» с 32 уровнями не упорядочен, поскольку все уровни имеют равную значимость. Если фактор упорядочен, это стоит явно указать при его объявлении.
  • количественные (числовые) значения в диапазоне от минус бесконечности до плюс бесконечности.

Признаки могут извлекаться из данных любого типа, в т.ч. из текста, изображений и геоданных. При обработке текстовой информации сначала выполняется ее токенизация, а затем лемматизация и цифровизация – перевод слов в числовые вектора. Этому процессу мы посвятили отдельную статью. В случае изображений зачастую анализируется не только содержание картинки как набора пикселей различного цвета, но и метаданные графического файла: дата съемки, разрешение, модель камеры и т.д. Географические данные чаще всего представлены в виде адресов (текст) или пар «широта + долгота» (числовых наборов – точек) [3].

генерация признаков
Выбор предикторов — интересная задача фазы Data Preparation

Как проходит генерация признаков: 3 задачи этого этапа Data Mining и способы их решения

Генерация признаков включает в себя 3 взаимосвязанные задачи [3], каждой из которых мы посвятили отдельную статью:

  • извлечение признаков (feature extraction) – превращение данных, специфических для предметной области, в понятные для модели числовые векторы. В частности, именно здесь выполняется токенизация и лемматизация текстов, обработка изображений и геоданных;
  • преобразование признаков (feature transformation) – изменение данных для повышения точности алгоритма, например, нормализация или изменение вероятностного распределения;
  • отбор признаков (feature selection) – отсечение ненужных признаков с помощью алгоритмов машинного обучения, которые позволяют оценить важность предиктора, например, жадный алгоритм, логистическая регрессия, случайный лес, градиентный бустинг [4].

После того, как генерация признаков завершена, наступают этапы интеграции и форматирования датасета, чтобы, наконец, приступить к моделированию, т.е. машинному обучению.

Feature Engineering, отбор, извлечение, трансформация и отбрасывание ненужных признаков в Data Mining
Генерация признаков — пожалуй, самый творческий этап Data Preparation

Все подробности Feature Engineering и другие детали Data Preparation в нашем новом обучающем курсе для аналитиков больших данных: подготовка данных для Data Mining. Приходите, будет интересно!

расписание компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Смотреть расписание занятий
регистрация на компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Зарегистрироваться на курс

Источники

  1. https://www.bigdataschool.ru/bigdata/data-preparation-operations.html
  2. https://www.mql5.com/ru/articles/2029
  3. https://habr.com/ru/company/ods/blog/325422
  4. http://datareview.info/article/universalnyj-podxod-pochti-k-lyuboj-zadache-mashinnogo-obucheniya/