En los modelos lineales necesitamos verificar si existe una relación entre las variables explicativas. Si se correlacionan demasiado, entonces hay colinealidad (es decir, las variables se explican parcialmente entre sí). Actualmente solo estoy mirando la correlación por pares entre cada una de las variables explicativas.
Pregunta 1: ¿Qué clasifica como demasiada correlación? Por ejemplo, ¿es una correlación de Pearson de 0.5 demasiado?
Pregunta 2: ¿Podemos determinar completamente si existe colinealidad entre dos variables en función del coeficiente de correlación o si depende de otros factores?
Pregunta 3: ¿Una verificación gráfica del diagrama de dispersión de las dos variables agrega algo a lo que indica el coeficiente de correlación?
Respuestas:
Siempre es inteligente mirar sus datos, y no simplemente resúmenes numéricos / resultados de pruebas. La referencia canónica aquí es el cuarteto de Anscomb .
fuente
Mi opinión sobre las tres preguntas es
Muchos autores sostienen que la (multi-) colinealidad no es un problema. Eche un vistazo aquí y aquí para obtener una opinión bastante ácida sobre el tema. La conclusión es que la multicolinealidad no tiene un impacto en la prueba de hipótesis que no sea tener un tamaño de muestra más bajo (efectivo). Le resultará difícil interpretar los coeficientes de regresión si realiza una regresión, por ejemplo, pero no viola ninguna suposición básica si elige hacerlo.
Creo que hay varias formas de medir la correlación entre dos variables, desde calcular el coeficiente de correlación de Pearson (si asume linealidad, y aparentemente lo hizo), hasta el rango de Spearman , la correlación de distancia e incluso hacer PCA en su conjunto de datos. Pero dejaría la respuesta de esta pregunta a personas mejor informadas que yo.
OMI, la respuesta es el sonido no.
fuente
Una forma común de evaluar la colinealidad es con los factores de inflación de varianza (VIF). Esto se puede lograr en R usando la función 'vif' dentro del paquete 'car'. Esto tiene una ventaja sobre mirar solo las correlaciones entre dos variables, ya que evalúa simultáneamente la correlación entre una variable y el resto de las variables en el modelo. Luego le da una puntuación única para cada predictor en el modelo.
Como se indicó anteriormente, no hay un corte duro y rápido, pero las puntuaciones VIF a menudo se consideran problemáticas una vez que están entre 5-10. Utilizo reglas generales específicas de campo para esto. Además, no hay nada necesariamente inválido sobre el uso de predictores correlacionados (siempre que no estén perfectamente correlacionados). Solo necesitará más datos para separar los efectos. Cuando no tenga suficientes datos, habrá grandes incertidumbres en las estimaciones de los parámetros de los predictores correlacionados, y estas estimaciones serán sensibles al muestreo.
Para responder a sus preguntas específicamente:
No use coeficientes de correlación. use VIF del modelo con todos los predictores y sin interacciones. Los VIF de 5-10 indican demasiada correlación, su límite específico depende de lo que necesite hacer con el modelo.
Depende de los otros predictores en el modelo, por lo que es beneficioso usar VIF.
No! Las estadísticas cuantificarán mejor lo que estás mirando con el diagrama de dispersión. A menos que haya una súper violación de las suposiciones de OLS al retroceder sus predictores uno contra el otro.
fuente