Actualmente estoy evaluando la multicolinealidad en mis conjuntos de datos.
¿Qué valores de umbral de VIF e índice de condición por debajo / arriba sugieren un problema?
VIF: He escuchado que VIF es un problema.
Después de eliminar dos variables problemáticas, VIF es para cada variable. ¿Las variables necesitan más tratamiento o este VIF parece estar bien?
Índice de condición: he oído que un índice de condición (CI) de 30 o más es un problema. Mi CI más alto es 16.66. ¿Es esto un problema?
Otros asuntos:
- ¿Hay otros dos / donts que deben considerarse?
- ¿Hay alguna otra cosa que deba tener en cuenta?
multiple-regression
linear-model
multicollinearity
vif
ayush biyani
fuente
fuente
Respuestas:
El problema de la multicolinealidad está bien estudiado en la mayoría de los libros de texto econométricos. Además, hay un buen artículo en wikipedia que resume la mayoría de los problemas clave.
En la práctica, uno comienza a tener en cuenta el problema de la multicolinealidad si causa algunos signos visuales de inestabilidad de parámetros (la mayoría de ellos están implicados por la falta de inversión (pobre) de la matriz ):XTX
probablemente no teóricamente, ya que puede suceder (y generalmente es el caso) que necesite que todas las variables estén presentes en el modelo. Excluir variables relevantes (problema de variables omitidas) hará estimaciones de parámetros sesgadas e inconsistentes de todos modos. Por otro lado, puede verse obligado a incluir todas las variables de enfoque simplemente porque su análisis se basa en él. En el enfoque de minería de datos, aunque usted es más técnico en la búsqueda del mejor ajuste.
Así que tenga en cuenta las alternativas (que usaría yo mismo):
Algunos otros trucos se encuentran en el artículo wiki mencionado anteriormente.
fuente
Creo que Belsely dijo que la CI de más de 10 es indicativa de un posible problema moderado, mientras que más de 30 es más grave.
Además, sin embargo, debe observar la varianza compartida por conjuntos de variables en los índices de condición alta. Existe un debate (o la última vez que leí esta literatura) sobre si la colinealidad que involucraba una variable y la intercepción era problemática o no, y si centrar la variable ofensiva eliminaba el problema o simplemente lo trasladaba a otro lado.
fuente