¿Hay alguna razón para preferir una medida específica de multicolinealidad?

Cuando trabajamos con muchas variables de entrada, a menudo nos preocupa la multicolinealidad . Existen varias medidas de multicolinealidad que se utilizan para detectar, pensar y / o comunicar multicolinealidad. Algunas recomendaciones comunes son:

El múltiple $R^2_j$ para una variable particular
La tolerancia, $1-R^2_j$ , para una variable particular
El factor de inflación de varianza, , para una variable particular $\text{VIF}=\frac{1}{\text{tolerance}}$
El número de condición de la matriz de diseño en su conjunto:

$\sqrt{\frac{max (valor propio (X'X))}{min (valor propio (X'X))}}$ $\sqrt{\frac{\text{max(eigenvalue(X'X))}}{\text{min(eigenvalue(X'X))}}}$

(Hay algunas otras opciones discutidas en el artículo de Wikipedia, y aquí en SO en el contexto de R.)

El hecho de que los primeros tres sean una función perfecta el uno del otro sugiere que la única ventaja neta posible entre ellos sería psicológica. Por otro lado, los primeros tres le permiten examinar las variables individualmente, lo que podría ser una ventaja, pero he oído que el método del número de condición se considera el mejor.

¿Es esto cierto? ¿Lo mejor para qué?
¿Es el número de condición una función perfecta de $R^2_j$ 's? (Creo que lo sería)
¿La gente encuentra que uno de ellos es más fácil de explicar? (Nunca he tratado de explicar estos números fuera de clase, solo doy una descripción suelta y cualitativa de multicolinealidad).

multicollinearity gung - Restablece a Monica
fuente

He publicado una pregunta de seguimiento relacionada, con respuestas que complementan lo que ya está aquí: stats.stackexchange.com/questions/173665/…

kyrenia

A fines de la década de 1990, hice mi disertación sobre colinealidad.

Mi conclusión fue que los índices de condición eran los mejores.

La razón principal fue que, en lugar de mirar variables individuales , le permite mirar conjuntos de variables. Dado que la colinealidad es una función de conjuntos de variables, esto es algo bueno.

Además, los resultados de mi estudio de Monte Carlo mostraron una mejor sensibilidad a la colinealidad problemática, pero hace mucho tiempo que olvidé los detalles.

Por otro lado, es probablemente el más difícil de explicar. Mucha gente sabe qué $R^2$ es. Solo un pequeño subconjunto de esas personas ha oído hablar de valores propios. Sin embargo, cuando he usado índices de condición como herramienta de diagnóstico, nunca me han pedido una explicación.

Para mucho más sobre esto, consulte los libros de David Belsley. O, si realmente lo desea, puede obtener mi disertación Diagnóstico de multicolinealidad para regresión múltiple: un estudio de Monte Carlo

Peter Flom - Restablece a Monica
fuente

Entonces, ¿la idea aquí es que al mirar VIFs, podría concluir erróneamente que la multicolinealidad no es un problema, pero si hubiera mirado el número de condición, habría sido más probable que llegara a la conclusión correcta? ¿Quizás algo así como una prueba con mayor poder estadístico?

gung - Restablece a Monica

+1. Afortunadamente, para explicar el número de condición, ya tenemos un hilo sobresaliente en este sitio: es la distorsión máxima que se encuentra en la descripción de segundo orden de las variables de diseño como una nube de puntos. Cuanto mayor es la distorsión, más tienden a ubicarse los puntos dentro de un subespacio. Esta visión geométrica también muestra por qué el acondicionamiento de una matriz de diseño centrado es mejor que el de la matriz de diseño en bruto.

whuber

Bueno, es difícil definir exactamente cuál es la conclusión "correcta"; pero debería tener algo que ver con pequeños cambios en los datos que producen grandes cambios en la salida. Como recuerdo, los índices de condición estaban más directamente relacionados con esto. Pero lo más importante fue obtener las proporciones de varianza, que le permiten ver conjuntos de variables y el grado de su colinealidad. (Por supuesto, todo eso fue hace 14 años ... pero no creo que las cosas hayan cambiado. Las medidas son las mismas. Pero mi memoria puede no ser perfecta).

Peter Flom - Restablece a Monica

Gung, un punto clave aquí es que el número de condición es independiente de las coordenadas: permanece sin cambios bajo recombinaciones lineales (ortogonales) de los datos. Por lo tanto, no puede expresar nada sobre variables individuales, pero debe capturar una propiedad de toda la colección. Usarlo por lo tanto lo aísla parcialmente de ser engañado por cómo se expresan sus variables.

whuber

Todavía estoy demasiado abrumado para terminar tu disertación, pero ha sido realmente útil hasta ahora. Gracias de nuevo.

gung - Restablece a Monica

¿Hay alguna razón para preferir una medida específica de multicolinealidad?

Respuestas: