¿Cuándo podemos hablar de colinealidad?

16

En los modelos lineales necesitamos verificar si existe una relación entre las variables explicativas. Si se correlacionan demasiado, entonces hay colinealidad (es decir, las variables se explican parcialmente entre sí). Actualmente solo estoy mirando la correlación por pares entre cada una de las variables explicativas.

Pregunta 1: ¿Qué clasifica como demasiada correlación? Por ejemplo, ¿es una correlación de Pearson de 0.5 demasiado?

Pregunta 2: ¿Podemos determinar completamente si existe colinealidad entre dos variables en función del coeficiente de correlación o si depende de otros factores?

Pregunta 3: ¿Una verificación gráfica del diagrama de dispersión de las dos variables agrega algo a lo que indica el coeficiente de correlación?

Stefan
fuente
2
La colinealidad (singularidad) entre 3+ variables no se reduce solo a altas correlaciones por pares. Busque en el sitio preguntas etiquetadas como "multicolinealidad". Además, le recomiendo que lea mi respuesta: stats.stackexchange.com/a/70910/3277 .
ttnphns

Respuestas:

3

Mi opinión sobre las tres preguntas es

Pregunta 1 ¿Qué clasifica como demasiada correlación? Por ejemplo: una correlación de Pearson de 0.5 ¿es demasiado?

Muchos autores sostienen que la (multi-) colinealidad no es un problema. Eche un vistazo aquí y aquí para obtener una opinión bastante ácida sobre el tema. La conclusión es que la multicolinealidad no tiene un impacto en la prueba de hipótesis que no sea tener un tamaño de muestra más bajo (efectivo). Le resultará difícil interpretar los coeficientes de regresión si realiza una regresión, por ejemplo, pero no viola ninguna suposición básica si elige hacerlo.

Pregunta 2 ¿Podemos determinar completamente si hay colinealidad entre dos variables en función del coeficiente de correlación o si depende de otros factores?

Creo que hay varias formas de medir la correlación entre dos variables, desde calcular el coeficiente de correlación de Pearson (si asume linealidad, y aparentemente lo hizo), hasta el rango de Spearman , la correlación de distancia e incluso hacer PCA en su conjunto de datos. Pero dejaría la respuesta de esta pregunta a personas mejor informadas que yo.

Pregunta 3 ¿Una verificación gráfica del diagrama de dispersión de las dos variables agrega algo a lo que indica el coeficiente de correlación?

OMI, la respuesta es el sonido no.

pedrofigueira
fuente
3
En mi humilde opinión, la respuesta a (3) es, por el contrario, un sí muy fuerte: mientras que el coeficiente de correlación solo puede dar una evaluación numérica única de la linealidad de una relación, un vistazo rápido al diagrama de dispersión proporcionará una gran cantidad de información adicional al respecto relación, incluidos los comportamientos que no se esperaban de antemano. Sin embargo, el interés real en este conjunto de preguntas radica en cómo evaluar las relaciones entre tres o más variables (a pesar de cómo (3) se formuló realmente), y en ese caso incluso una matriz de diagrama de dispersión no revela todo, como señala @ttnphns.
whuber
1
En cuanto a (1), leo su referencia (al blog de Dave Gile) de manera diferente: argumenta que las pruebas formales de multicolinealidad son erróneas. No lo veo alegando que la multicolinealidad no es un problema.
whuber
Según tengo entendido, la respuesta de Dave Gile es que la única forma en que la multicolinealidad afecta los resultados será a través de un tamaño de muestra más pequeño equivalente. Por lo tanto, al igual que no tiene sentido probar un tamaño de muestra pequeño, tampoco tiene sentido probar el impacto de la multicolinealidad. Pero me alegraría saber tu opinión al respecto, tal vez lo entendí mal.
pedrofigueira
Bueno, ¡necesitar un tamaño de muestra más grande puede ser un gran impacto para la mayoría de los estudios! Un efecto más sutil de la casi colinealidad se refiere a la construcción de modelos y la selección de variables, como se discutió ( entre otras cosas ) en subprocesos como stats.stackexchange.com/questions/50537 y stats.stackexchange.com/a/28476/919 . Pero asegurémonos de que estamos hablando de las mismas cosas: Giles está discutiendo pruebas formales de multicolinealidad, como si las variables independientes se muestrearan al azar. Aquí la preocupación parece centrada en el uso de diagnósticos multicolineales para comprender las capacidades y limitaciones de un modelo.
whuber
1

Una forma común de evaluar la colinealidad es con los factores de inflación de varianza (VIF). Esto se puede lograr en R usando la función 'vif' dentro del paquete 'car'. Esto tiene una ventaja sobre mirar solo las correlaciones entre dos variables, ya que evalúa simultáneamente la correlación entre una variable y el resto de las variables en el modelo. Luego le da una puntuación única para cada predictor en el modelo.

Como se indicó anteriormente, no hay un corte duro y rápido, pero las puntuaciones VIF a menudo se consideran problemáticas una vez que están entre 5-10. Utilizo reglas generales específicas de campo para esto. Además, no hay nada necesariamente inválido sobre el uso de predictores correlacionados (siempre que no estén perfectamente correlacionados). Solo necesitará más datos para separar los efectos. Cuando no tenga suficientes datos, habrá grandes incertidumbres en las estimaciones de los parámetros de los predictores correlacionados, y estas estimaciones serán sensibles al muestreo.

Para responder a sus preguntas específicamente:

  1. No use coeficientes de correlación. use VIF del modelo con todos los predictores y sin interacciones. Los VIF de 5-10 indican demasiada correlación, su límite específico depende de lo que necesite hacer con el modelo.

  2. Depende de los otros predictores en el modelo, por lo que es beneficioso usar VIF.

  3. No! Las estadísticas cuantificarán mejor lo que estás mirando con el diagrama de dispersión. A menos que haya una súper violación de las suposiciones de OLS al retroceder sus predictores uno contra el otro.

colin
fuente