¿Cómo lidiar con una alta correlación entre predictores en regresión múltiple?

18

Encontré una referencia en un artículo que dice así:

Según Tabachnick y Fidell (1996), las variables independientes con una correlación bivariada de más de .70 no deberían incluirse en el análisis de regresión múltiple.

Problema: utilicé en un diseño de regresión múltiple 3 variables correlacionadas> .80, VIF en aproximadamente .2 - .3, Tolerancia ~ 4-5. No puedo excluir ninguna de ellas (predictores y resultados importantes). Cuando retrocedí el resultado en los 2 predictores que se correlacionaron a 0,80, ambos permanecieron significativos, cada uno pronosticaba variaciones importantes, y estas mismas dos variables tienen los coeficientes de correlación semipartial y parcial más grandes entre las 10 variables incluidas (5 controles).

Pregunta: ¿Es válido mi modelo a pesar de las altas correlaciones? Cualquier referencia muy bienvenida!


¡Gracias por las respuestas!

No utilicé Tabachnick y Fidell como guía, encontré esta referencia en un artículo que trata sobre una alta colinealidad entre los predictores.

Entonces, básicamente, tengo muy pocos casos para el número de predictores en el modelo (muchas variables de control categóricas, codificadas simuladas: edad, tenencia, género, etc.): 13 variables para 72 casos. El índice de condición es ~ 29 con todos los controles y ~ 23 sin ellos (5 variables).

No puedo descartar ninguna variable ni utilizar el análisis factorial para combinarlas porque, en teoría, tienen sentido por sí mismas. Es demasiado tarde para obtener más datos. Dado que estoy realizando el análisis en SPSS, tal vez sería mejor encontrar una sintaxis para la regresión de crestas (aunque no lo he hecho antes e interpretar los resultados sería algo nuevo para mí).

Si importa, cuando realicé la regresión gradual, las mismas 2 variables altamente correlacionadas seguían siendo los predictores significativos únicos del resultado.

Y todavía no entiendo si las correlaciones parciales que son altas para cada una de estas variables importan como una explicación de por qué las he mantenido en el modelo (en caso de que no se pueda realizar la regresión de cresta).

¿Diría que el "Diagnóstico de regresión: identificación de datos influyentes y fuentes de colinealidad / David A. Belsley, Edwin Kuh y Roy E. Welsch, 1980" sería útil para comprender la multicolinealidad? ¿O podrían ser útiles otras referencias?

Ander
fuente
2
Para ver un ejemplo explícito de esta situación, consulte el análisis de 10 IV en stats.stackexchange.com/a/14528 . Aquí, todos los IV están fuertemente correlacionados (alrededor del 60%). Pero si los excluyeses a todos, ¡no te quedaría nada! A menudo es el caso de que no pueda eliminar ninguna de estas variables. Esto hace que la recomendación de T&F sea insostenible.
whuber
De hecho, hay una serie de pronunciamientos en Tabachnick y Fidell que consideraría al menos algo dudosos ... solo porque algo está impreso en un libro no significa que siempre tenga sentido.
Glen_b -Reinstala a Monica

Respuestas:

20

El problema clave no es la correlación sino la colinealidad (ver trabajos de Belsley, por ejemplo). Esto se prueba mejor utilizando índices de condición (disponibles en R, SASy probablemente también otros programas. La correlación no es una condición necesaria ni suficiente para la colinealidad. Los índices de condición superiores a 10 (según Belsley) indican colinealidad moderada, más de 30 severa, pero también depende sobre qué variables están involucradas en la colinealidad.

Si encuentra alta colinealidad, significa que sus estimaciones de parámetros son inestables. Es decir, pequeños cambios (a veces en la cuarta cifra significativa) en sus datos pueden causar grandes cambios en sus estimaciones de parámetros (a veces incluso revertir su signo). Esto es algo malo.

Los remedios son 1) Obtener más datos 2) Dejar caer una variable 3) Combinar las variables (por ejemplo, con mínimos cuadrados parciales) y 4) Realizar regresión de cresta, lo que da resultados sesgados pero reduce la varianza en las estimaciones.

Peter Flom - Restablece a Monica
fuente
Tabachnick y Fidell escribieron un buen libro multivariado para las ciencias sociales. No son estadísticos, pero su conocimiento del multivariado es bastante bueno. Pero creo que pueden crear reglas generales para simplificar y podrían pasar por alto sutilezas estadísticas. Por lo tanto, confiaría más en lo que Peter dice en sus respuestas que en su artículo.
Michael R. Chernick
Gracias @MichaelChernick. De hecho, escribí mi disertación sobre diagnósticos de colinealidad para regresión múltiple.
Peter Flom - Restablece a Monica
Supongo que eres tan viejo como yo y, por lo tanto, tu trabajo vino después del trabajo de Belsley, Kuh, Welsch y Cook. Sé que el trabajo de Cook se centró principalmente en otros problemas de diagnóstico (apalancamiento y no normalidad), pero ¿hizo algo en multicolinealidad? Por supuesto, el concepto de regresión de crestas incluso se remonta antes de mi tiempo
Michael R. Chernick
1
@ Peter Flom: ¿Por qué la correlación no es una condición necesaria ni suficiente para la colinealidad? ¿Te refieres a la correlación no lineal?
Julian
55
No es necesario porque, si hay una gran cantidad de variables, todos los pares solo pueden estar ligeramente correlacionados, pero la suma de ellos es perfectamente colineal. No es suficiente porque hay casos en los que una correlación bastante alta no produce índices de colinealidad problemáticos por condición
Peter Flom - Restablece a Monica