Мультиколлинеарность

Мультиколлинеарность — корреляция независимых переменных [1], которая затрудняет оценку и анализ общего результата [2]. Когда независимые переменные коррелируют друг с другом, говорят о возникновении мультиколлинеарности.

В машинном обучении (Machine Learning) мультиколлинеарность может стать причиной переобучаемости модели, что приведет к неверному результату [3]. Кроме того, избыточные коэффициенты увеличивают сложность модели машинного обучения, а значит, время ее тренировки возрастает. Еще мультиколлинеарность факторов плоха тем, что математическая модель регрессии содержит избыточные переменные, а это значит [4]:

  • осложняется интерпретация параметров множественной регрессии как величин действия факторов, параметры регрессии теряют смысл и следует рассматривать другие переменные;
  • оценки параметров ненадежны – получаются большие стандартные ошибки, которые меняются с изменением объема наблюдений, что делает модель регрессии непригодной для прогнозирования.

Для оценки мультиколлинеарности используется матрица парных коэффициентов корреляции, у которой необходимо вычислить определитель. При этом возможны следующие ситуации [4]:

  • у совсем не коррелирующих факторов матрица парных коэффициентов корреляции единичная, у которой все элементы вне ее главной диагонали равны нулю;
  • если между факторами определилась абсолютно линейная зависимость и все коэффициенты корреляции равняются единице, то определитель такой матрицы равен нулю;
  • чем определитель меньше (ближе к нулю), тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии;
  • чем определитель ближе к единице, тем меньше мультиколлинеарность факторов.

Две переменных коллинеарны, когда они находятся между собой в линейной зависимости, если коэффициент корреляции более 0,7. Чтобы избавиться от мультиколлинарности, необходимо исключить из модели один из факторов. Например, в эконометрике исключается фактор, который при сильной связи с результатом имеет наибольшую тесноту связи с другими переменными [4]

Источники

  1. https://edwvb.blogspot.com/2015/02/multicollinearity.html
  2. http://www.machinelearning.ru/wiki/index.php?title=Мультиколлинеарность
  3. http://datareview.info/article/7-oshibok-dopuskaemyih-pri-vyipolnenii-mashinnogo-obucheniya/
  4. http://univer-nn.ru/ekonometrika/multikollinearnost/

Related Entries