¿Por qué funciona bien la Regresión de Ridge en presencia de multicolinealidad?

13

Estoy aprendiendo sobre la regresión de crestas y sé que la regresión de crestas tiende a funcionar mejor en presencia de multicolinealidad. Me pregunto por qué esto es cierto. Una respuesta intuitiva o matemática sería satisfactoria (ambos tipos de respuestas serían aún más satisfactorias).

Además, sé que ese β siempre se puede obtener, pero ¿qué tan bien el trabajo regresión contraída en presencia de colinealidad exacta (una variable independiente es una función lineal de otro)?β^

TrynnaDoStat
fuente
55
Con respecto a su segunda pregunta: si tiene una colinealidad exacta, puede eliminar una de las variables. No necesita regresión de cresta.
Peter Flom - Restablece a Monica

Respuestas:

13

x1x2yes la tercera dimensión) y a menudo hay un "mejor" plano muy claro. Pero con colinearidad, la relación es realmente una línea a través del espacio tridimensional con datos dispersos a su alrededor. Pero la rutina de regresión intenta ajustar un plano a una línea, por lo que hay un número infinito de planos que se cruzan perfectamente con esa línea, el plano elegido depende de los puntos influyentes en los datos, cambia uno de esos puntos solo un poco y el "mejor" plano de adaptación cambia bastante. Lo que hace la regresión de cresta es tirar del plano elegido hacia modelos más simples / más sanos (valores de sesgo hacia 0). Piense en una banda elástica desde el origen (0,0,0) hasta el plano que tira del plano hacia 0, mientras que los datos lo alejarán para un buen compromiso.

Greg Snow
fuente
@ Trynna, hay imágenes que ilustran lo que Greg dijo sobre el problema de la colinealidad.
ttnphns
1
¡Esta es una muy buena explicación geométrica sobre por qué la multicolinealidad es un problema en la regresión de OLS! Pero todavía no entiendo bien por qué tirar del avión al origen soluciona el problema.
TrynnaDoStat
2
@ TrynnaDoStat, la principal preocupación es la variabilidad de las estimaciones, con la multicolinealidad, un pequeño cambio en un solo punto de datos puede oscilar enormemente las estimaciones de coeficientes (sin el sesgo). Al sesgar hacia 0 no hay mucho cambio en las estimaciones de los coeficientes (porque esa banda elástica los empuja hacia 0) con un cambio menor en un solo punto de datos, lo que reduce la variabilidad.
Greg Snow
Gracias @ttnphns por el enlace a las imágenes: sin él fue bastante difícil obtener la respuesta. Ahora, la respuesta de Greg es clara y lo que necesitaba para entender esta línea en ESLII (2ª ed.): "Un coeficiente positivo enormemente grande en una variable puede cancelarse por un coeficiente negativo igualmente grande en su primo correlacionado. Al imponer una restricción de tamaño en el coeficientes este problema se alivia ".
Tommaso Guerrini