Encontré una referencia en un artículo que dice así:
Según Tabachnick y Fidell (1996), las variables independientes con una correlación bivariada de más de .70 no deberían incluirse en el análisis de regresión múltiple.
Problema: utilicé en un diseño de regresión múltiple 3 variables correlacionadas> .80, VIF en aproximadamente .2 - .3, Tolerancia ~ 4-5. No puedo excluir ninguna de ellas (predictores y resultados importantes). Cuando retrocedí el resultado en los 2 predictores que se correlacionaron a 0,80, ambos permanecieron significativos, cada uno pronosticaba variaciones importantes, y estas mismas dos variables tienen los coeficientes de correlación semipartial y parcial más grandes entre las 10 variables incluidas (5 controles).
Pregunta: ¿Es válido mi modelo a pesar de las altas correlaciones? Cualquier referencia muy bienvenida!
¡Gracias por las respuestas!
No utilicé Tabachnick y Fidell como guía, encontré esta referencia en un artículo que trata sobre una alta colinealidad entre los predictores.
Entonces, básicamente, tengo muy pocos casos para el número de predictores en el modelo (muchas variables de control categóricas, codificadas simuladas: edad, tenencia, género, etc.): 13 variables para 72 casos. El índice de condición es ~ 29 con todos los controles y ~ 23 sin ellos (5 variables).
No puedo descartar ninguna variable ni utilizar el análisis factorial para combinarlas porque, en teoría, tienen sentido por sí mismas. Es demasiado tarde para obtener más datos. Dado que estoy realizando el análisis en SPSS, tal vez sería mejor encontrar una sintaxis para la regresión de crestas (aunque no lo he hecho antes e interpretar los resultados sería algo nuevo para mí).
Si importa, cuando realicé la regresión gradual, las mismas 2 variables altamente correlacionadas seguían siendo los predictores significativos únicos del resultado.
Y todavía no entiendo si las correlaciones parciales que son altas para cada una de estas variables importan como una explicación de por qué las he mantenido en el modelo (en caso de que no se pueda realizar la regresión de cresta).
¿Diría que el "Diagnóstico de regresión: identificación de datos influyentes y fuentes de colinealidad / David A. Belsley, Edwin Kuh y Roy E. Welsch, 1980" sería útil para comprender la multicolinealidad? ¿O podrían ser útiles otras referencias?
Respuestas:
El problema clave no es la correlación sino la colinealidad (ver trabajos de Belsley, por ejemplo). Esto se prueba mejor utilizando índices de condición (disponibles en
R
,SAS
y probablemente también otros programas. La correlación no es una condición necesaria ni suficiente para la colinealidad. Los índices de condición superiores a 10 (según Belsley) indican colinealidad moderada, más de 30 severa, pero también depende sobre qué variables están involucradas en la colinealidad.Si encuentra alta colinealidad, significa que sus estimaciones de parámetros son inestables. Es decir, pequeños cambios (a veces en la cuarta cifra significativa) en sus datos pueden causar grandes cambios en sus estimaciones de parámetros (a veces incluso revertir su signo). Esto es algo malo.
Los remedios son 1) Obtener más datos 2) Dejar caer una variable 3) Combinar las variables (por ejemplo, con mínimos cuadrados parciales) y 4) Realizar regresión de cresta, lo que da resultados sesgados pero reduce la varianza en las estimaciones.
fuente