¿Estabilidad beta en regresión lineal con alta multicolinealidad?
Digamos que en una regresión lineal, las variables y x 2 tienen una alta multicolinealidad (la correlación es de alrededor de 0.9).
Nos preocupa la estabilidad del coeficiente , por lo que debemos tratar la multicolinealidad.
La solución del libro de texto sería simplemente tirar una de las variables.
Pero no queremos perder información útil simplemente desechando variables.
¿Alguna sugerencia?
Respuestas:
Puede intentar el enfoque de regresión de cresta en el caso cuando la matriz de correlación está cerca de singular (es decir, las variables tienen correlaciones altas). Le proporcionará una estimación sólida de .β
La única pregunta es cómo elegir el parámetro de regularización . No es un problema simple, aunque sugiero probar diferentes valores.λ
¡Espero que esto ayude!
fuente
lm.ridge
rutina en el paquete MASS. Si le pasa un rango de valores para , por ejemplo, una llamada como , obtendrá las estadísticas de validación cruzada generalizadas y podrá trazarlas contra λ : para elegir el mínimo.foo <- lm.ridge(y~x1+x2,lambda=seq(0,10,by=0.1))
foo
plot(foo$GCV~foo$lambda)
Bueno, hay un método ad hoc que he usado antes. No estoy seguro de si este procedimiento tiene un nombre, pero tiene sentido intuitivamente.
Supongamos que su objetivo es adaptarse al modelo
donde los dos predictores - - están altamente correlacionados. Como ha señalado, usarlos en el mismo modelo puede hacer cosas extrañas en las estimaciones de coeficientes y los valores p . Una alternativa es ajustar el modelo.Xyo, Zyo pag
Entonces el residual no estará correlacionado con X i y, en cierto sentido, puede considerarse como la parte de Z i que no está subsumida por su relación lineal con X i . Luego, puede proceder a ajustar el modeloηyo Xyo Zyo Xyo
que capturará todos los efectos del primer modelo (y tendrá, de hecho, exactamente el mismo que el primer modelo) pero los predictores ya no son colineales.R2
Editar: El OP ha pedido una explicación de por qué los residuos no tienen, por definición, una correlación de muestra de cero con el predictor cuando se omite la intersección, como lo hacen cuando se incluye la intersección. Esto es demasiado largo para publicar en los comentarios, así que hice una edición aquí. Esta derivación no es particularmente esclarecedora (desafortunadamente no pude encontrar un argumento intuitivo razonable) pero muestra lo que solicitó el OP :
Cuando el punto de intersección se omite en la regresión lineal simple , β = Σ x i y i , entoncesei=yi-xi∑xiyiβ^= ∑ xyoyyo∑ x2yo . La correlación muestral entrexiyeies proporcional a ¯ x e - ¯ x ¯ e donde ¯ ⋅ denota la media muestral de la cantidad debajo de la barra. Ahora mostraré que esto no es necesariamente igual a cero.miyo= yyo- xyo∑ xyoyyo∑ x2yo Xyo miyo
Primero tenemos
pero
fuente
Me gustan las dos respuestas dadas hasta ahora. Déjame agregar algunas cosas.
Otra opción es que también puedes combinar las variables. Esto se hace estandarizando ambos (es decir, convirtiéndolos en puntajes z), promediando y luego ajustando su modelo con solo la variable compuesta. Este sería un buen enfoque cuando crees que son dos medidas diferentes de la misma construcción subyacente. En ese caso, tiene dos mediciones que están contaminadas con error. El valor verdadero más probable para la variable que realmentela preocupación se encuentra entre ellos, por lo que promediarlos proporciona una estimación más precisa. Primero los estandariza para colocarlos en la misma escala, de modo que los problemas nominales no contaminen el resultado (por ejemplo, no querría promediar varias mediciones de temperatura si algunas son Fahrenheit y otras son Celsius). Por supuesto, si ya están en la misma escala (por ejemplo, varias encuestas de opinión pública altamente correlacionadas), puede omitir ese paso. Si cree que una de sus variables podría ser más precisa que la otra, podría hacer un promedio ponderado (quizás utilizando los recíprocos de los errores de medición).
Estoy de acuerdo en que la regresión de la cresta es posiblemente mejor, porque le permite usar las variables que había planeado originalmente y es probable que produzca beta que estén muy cerca de sus valores reales (aunque estarán sesgados; consulte aquí o aquí para obtener más información) ) Sin embargo, creo que también tiene dos desventajas potenciales: es más complicado (requiere más sofisticación estadística), y el modelo resultante es más difícil de interpretar, en mi opinión.
Entiendo que quizás el enfoque final sería ajustar un modelo de ecuación estructural. Esto se debe a que le permitiría formular el conjunto exacto de relaciones que considera operativas, incluidas las variables latentes. Sin embargo, no conozco SEM lo suficientemente bien como para decir algo al respecto aquí, aparte de mencionar la posibilidad. (También sospecho que sería excesivo en la situación que describe con solo dos covariables).
fuente