¿Cómo puede manejar estimaciones

13

¿Estabilidad beta en regresión lineal con alta multicolinealidad?

Digamos que en una regresión lineal, las variables y x 2 tienen una alta multicolinealidad (la correlación es de alrededor de 0.9).x1x2

Nos preocupa la estabilidad del coeficiente , por lo que debemos tratar la multicolinealidad.β

La solución del libro de texto sería simplemente tirar una de las variables.

Pero no queremos perder información útil simplemente desechando variables.

¿Alguna sugerencia?

Luna
fuente
55
¿Has probado algún tipo de esquema de regularización (por ejemplo, regresión de cresta)?
Néstor

Respuestas:

11

Puede intentar el enfoque de regresión de cresta en el caso cuando la matriz de correlación está cerca de singular (es decir, las variables tienen correlaciones altas). Le proporcionará una estimación sólida de .β

La única pregunta es cómo elegir el parámetro de regularización . No es un problema simple, aunque sugiero probar diferentes valores.λ

¡Espero que esto ayude!

Pablo
fuente
2
La validación cruzada es lo habitual para elegir ;-). λ
Néstor
de hecho (+1 para la respuesta y el comentario de Nestor), y si realiza los cálculos en "forma canónica" (utilizando una descomposición propia de , puede encontrar el λ minimizando el error de validación cruzada de dejar uno fuera El método de Newton es muy barato.XTXλ
Dikran Marsupial
¡muchas gracias! ¿Algún tutorial / notas sobre cómo hacerlo, incluida la validación cruzada en R?
Luna
Consulte el capítulo 3 de este libro: stanford.edu/~hastie/local.ftp/Springer/ESLII_print5.pdf . La implementación de la regresión de crestas se realiza en R por algunos de los autores (¡Google es tu amigo!).
Néstor
2
Puede usar la lm.ridgerutina en el paquete MASS. Si le pasa un rango de valores para , por ejemplo, una llamada como , obtendrá las estadísticas de validación cruzada generalizadas y podrá trazarlas contra λ : para elegir el mínimo. λfoo <- lm.ridge(y~x1+x2,lambda=seq(0,10,by=0.1))fooλplot(foo$GCV~foo$lambda)
jbowman
10

Bueno, hay un método ad hoc que he usado antes. No estoy seguro de si este procedimiento tiene un nombre, pero tiene sentido intuitivamente.

Supongamos que su objetivo es adaptarse al modelo

Yi=β0+β1Xi+β2Zi+εi

donde los dos predictores - - están altamente correlacionados. Como ha señalado, usarlos en el mismo modelo puede hacer cosas extrañas en las estimaciones de coeficientes y los valores p . Una alternativa es ajustar el modelo.Xi,Zip

Zi=α0+α1Xi+ηi

Entonces el residual no estará correlacionado con X i y, en cierto sentido, puede considerarse como la parte de Z i que no está subsumida por su relación lineal con X i . Luego, puede proceder a ajustar el modeloηiXiZiXi

Yi=θ0+θ1Xi+θ2ηi+νi

que capturará todos los efectos del primer modelo (y tendrá, de hecho, exactamente el mismo que el primer modelo) pero los predictores ya no son colineales.R2

Editar: El OP ha pedido una explicación de por qué los residuos no tienen, por definición, una correlación de muestra de cero con el predictor cuando se omite la intersección, como lo hacen cuando se incluye la intersección. Esto es demasiado largo para publicar en los comentarios, así que hice una edición aquí. Esta derivación no es particularmente esclarecedora (desafortunadamente no pude encontrar un argumento intuitivo razonable) pero muestra lo que solicitó el OP :

Cuando el punto de intersección se omite en la regresión lineal simple , β = Σ x i y i , entoncesei=yi-xixiyiβ^=xiyixi2 . La correlación muestral entrexiyeies proporcional a ¯ x e - ¯ x ¯ e donde ¯ denota la media muestral de la cantidad debajo de la barra. Ahora mostraré que esto no es necesariamente igual a cero.ei=yixixiyixi2xiei

xe¯x¯e¯
¯

Primero tenemos

xe¯=1n(xiyixi2xiyixi2)=xy¯(1xi2xi2)=0

pero

x¯e¯=x¯(y¯x¯xy¯x2¯)=x¯y¯x¯2xy¯x2¯

eixix¯e¯0

y¯=x¯xy¯x2¯

x,y

Macro
fuente
Esto me recuerda a las parcelas de regresión parcial .
Andy W
3
(X,Z)
3
XZ
1
Hola Macro, gracias por la excelente prueba. Sí, ahora lo entiendo. Cuando hablamos de la correlación de la muestra entre x y los residuos, se requiere que se incluya el término de intercepción para que la correlación de la muestra sea 0. Por otro lado, cuando se habla de la ortogonalidad entre x y los residuos, no se requiere el término de intercepción para ser incluido, para que la ortogonalidad se mantenga.
Luna
1
@Luna, no estoy particularmente en desacuerdo con el uso de la regresión de crestas: esto fue justo lo que se me ocurrió por primera vez (respondí antes de que me lo sugirieran). Una cosa que puedo decir es que la estimación de regresión de cresta está sesgada, por lo que, en cierto sentido, en realidad está estimando una cantidad ligeramente diferente (reducida) de lo que es con la regresión ordinaria, lo que hace que la interpretación de los coeficientes sea quizás más desafiante (como gung) alude a). Además, lo que he descrito aquí solo requiere la comprensión de la regresión lineal básica y puede ser más intuitivo para algunos.
Macro
4

Me gustan las dos respuestas dadas hasta ahora. Déjame agregar algunas cosas.

Otra opción es que también puedes combinar las variables. Esto se hace estandarizando ambos (es decir, convirtiéndolos en puntajes z), promediando y luego ajustando su modelo con solo la variable compuesta. Este sería un buen enfoque cuando crees que son dos medidas diferentes de la misma construcción subyacente. En ese caso, tiene dos mediciones que están contaminadas con error. El valor verdadero más probable para la variable que realmentela preocupación se encuentra entre ellos, por lo que promediarlos proporciona una estimación más precisa. Primero los estandariza para colocarlos en la misma escala, de modo que los problemas nominales no contaminen el resultado (por ejemplo, no querría promediar varias mediciones de temperatura si algunas son Fahrenheit y otras son Celsius). Por supuesto, si ya están en la misma escala (por ejemplo, varias encuestas de opinión pública altamente correlacionadas), puede omitir ese paso. Si cree que una de sus variables podría ser más precisa que la otra, podría hacer un promedio ponderado (quizás utilizando los recíprocos de los errores de medición).

r>.98los hemos combinado, pero ¿por qué molestarse? Sin embargo, esto depende críticamente del hecho de que sus variables están correlacionadas porque son dos versiones diferentes de la misma cosa; Si hay una razón diferente por la que están correlacionados, esto podría ser totalmente inapropiado.

X1X2YXZ Xx1x2XZ

Estoy de acuerdo en que la regresión de la cresta es posiblemente mejor, porque le permite usar las variables que había planeado originalmente y es probable que produzca beta que estén muy cerca de sus valores reales (aunque estarán sesgados; consulte aquí o aquí para obtener más información) ) Sin embargo, creo que también tiene dos desventajas potenciales: es más complicado (requiere más sofisticación estadística), y el modelo resultante es más difícil de interpretar, en mi opinión.

Entiendo que quizás el enfoque final sería ajustar un modelo de ecuación estructural. Esto se debe a que le permitiría formular el conjunto exacto de relaciones que considera operativas, incluidas las variables latentes. Sin embargo, no conozco SEM lo suficientemente bien como para decir algo al respecto aquí, aparte de mencionar la posibilidad. (También sospecho que sería excesivo en la situación que describe con solo dos covariables).

gung - Restablece a Monica
fuente
44
X1eX1X2=X1+eX1Y=eYX1X2YX1X2Y=X2X1X1X2YY
Muchas gracias Gung! Q1. ¿Por qué funciona este enfoque: "Esto se hace estandarizando ambos (es decir, convirtiéndolos en puntajes z), promediando y luego ajustando su modelo con solo la variable compuesta". Q2 ¿Por qué sería mejor la Regresión de Ridge? Q3. ¿Por qué SEM sería mejor? ¿Alguien por favor arroja algunas luces sobre esto? ¡Gracias!
Luna
Hola Luna, me alegro de ayudar. De hecho, voy a volver a editar esto; @whuber tenía más razón de lo que inicialmente me había dado cuenta. Trataré de poner más para ayudar con sus preguntas adicionales, pero tomará mucho, por lo que podría tomar un tiempo. Ya veremos cómo va.
gung - Restablece a Monica