¿Por qué la estimación de cresta se vuelve mejor que OLS al agregar una constante a la diagonal?
59
Entiendo que la estimación de regresión de cresta es la que minimiza la suma residual del cuadrado y una penalización en el tamaño deβββ
βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]
Sin embargo, no entiendo completamente la importancia del hecho de que βridge difiere de βOLS al agregar solo una pequeña constante a la diagonal de X′X . En efecto,
βOLS=(X′X)−1X′y
Mi libro menciona que esto hace que la estimación sea más estable numéricamente, ¿por qué?
¿La estabilidad numérica está relacionada con la contracción hacia 0 de la estimación de cresta, o es solo una coincidencia?
En una regresión no normalizada, a menudo puede obtener una cresta * en el espacio de parámetros, donde muchos valores diferentes a lo largo de la cresta funcionan igual o casi tan bien en el criterio de mínimos cuadrados.
* (al menos, es una cresta en la función de probabilidad , en realidad son valles $ en el criterio RSS, pero continuaré llamándola cresta, ya que esto parece ser convencional, o incluso, como señala Alexis en los comentarios, podría llamar a eso un thalweg , siendo la contraparte del valle de una cresta)
En presencia de una cresta en el criterio de mínimos cuadrados en el espacio de parámetros, la penalización que obtiene con la regresión de cresta elimina esas crestas empujando el criterio hacia arriba a medida que los parámetros se alejan del origen:
En el primer gráfico, un gran cambio en los valores de los parámetros (a lo largo de la cresta) produce un cambio minúsculo en el criterio RSS. Esto puede causar inestabilidad numérica; es muy sensible a pequeños cambios (por ejemplo, un pequeño cambio en un valor de datos, incluso truncamiento o error de redondeo). Las estimaciones de los parámetros están casi perfectamente correlacionadas. Puede obtener estimaciones de parámetros que son muy grandes en magnitud.
Por el contrario, al levantar lo que minimiza la regresión de cresta (al agregar la penalización ) cuando los parámetros están lejos de 0, pequeños cambios en las condiciones (como un pequeño error de redondeo o truncamiento) no pueden producir cambios gigantescos en el resultado estimados. El término de penalización resulta en una contracción hacia 0 (lo que resulta en un sesgo). Una pequeña cantidad de sesgo puede comprar una mejora sustancial en la variación (al eliminar esa cresta).L2
La incertidumbre de las estimaciones se reduce (los errores estándar están inversamente relacionados con la segunda derivada, que se hace más grande por la penalización).
La correlación en las estimaciones de parámetros se reduce. Ahora no obtendrá estimaciones de parámetros de magnitud muy grande si el RSS para parámetros pequeños no fuera mucho peor.
Esta respuesta realmente me ayuda a comprender la contracción y la estabilidad numérica. Sin embargo, todavía no estoy claro acerca de cómo "agregar una pequeña constante a " logra estas dos cosas. X′X
Heisenberg
44
Agregar una constante a la diagonal * es lo mismo que agregar un paraboloide circular centrado en al RSS (con el resultado que se muestra arriba - "se levanta" lejos de cero - eliminando la cresta). * (no es necesariamente pequeño, depende de cómo lo mires y cuánto hayas agregado)0 0
Glen_b
66
Glen_b el antónimo de "cresta" en el idioma inglés que estás buscando (ese camino / curva a lo largo de un valle) es thalweg . De lo que acabo de enterarme hace dos semanas y simplemente adoro. ¡Ni siquiera suena como una palabra en inglés! : D
Alexis
55
@Alexis Sin duda sería una palabra útil, así que gracias por eso. Probablemente no suene inglés porque es una palabra alemana (de hecho, el thal es el mismo 'thal' que en " Neanderthal " = "Neander valley", y weg = 'way'). [Como estaba, quería "cresta" no porque no se me ocurriera cómo llamarla, sino porque la gente parece llamarla cresta ya sea que estén viendo probabilidad o RSS, y estaba explicando mi deseo de seguir la convención, aunque parezca extraño. Thalweg sería una excelente opción para la palabra correcta, si no siguiera el extraño thalweg de la convención.]
Glen_b
44
X se acerca a una matriz que no tiene rango completo (y, por lo tanto, X'X se vuelve casi singular) exactamente cuando aparece una cresta en la probabilidad. La cresta es una consecuencia directa de una relación casi lineal entre columnas de , lo que hace que s (casi) linealmente dependiente. Xβ
Glen_b
28
+1 en la ilustración de Glen_b y los comentarios de estadísticas en el estimador de Ridge. Solo me gustaría agregar un punto de vista puramente matemático (álgebra lineal) en la regresión de Ridge que responde a las preguntas OP 1) y 2).
Primero tenga en cuenta que es una matriz semidefinida positiva simétrica - veces la matriz de covarianza de la muestra. Por lo tanto tiene la descomposición propia.X′Xp×pn
X′X=VDV′,D=⎡⎣⎢⎢d1⋱dp⎤⎦⎥⎥,di≥0
Ahora, dado que la inversión matricial corresponde a la inversión de los valores propios, el estimador OLS requiere (tenga en cuenta que ). Obviamente, esto solo funciona si todos los valores propios son estrictamente mayores que cero, . Para esto es imposible; para es en general cierto: esto es donde generalmente nos preocupa la multicolinealidad .(X′X)−1=VD−1V′V′=V−1di>0p≫nn≫p
Como estadísticos, también queremos saber cómo pequeñas perturbaciones en los datos cambian las estimaciones. Está claro que un pequeño cambio en cualquier conduce a una gran variación en si es muy pequeño.Xdi1/didi
Entonces, lo que hace la regresión de Ridge es mover todos los valores propios más lejos de cero como
X′X+λIp=VDV′+λIp=VDV′+λVV′=V(D+λIp)V′,
que ahora tiene valores propios . Es por eso que elegir un parámetro de penalización positiva hace que la matriz sea invertible, incluso en el caso . Para la regresión de Ridge, una pequeña variación en los datos ya no tiene el efecto extremadamente inestable que tiene sobre la inversión de la matriz.di+λ≥λ≥0p≫nX
La estabilidad numérica está relacionada con la contracción a cero, ya que ambos son una consecuencia de agregar una constante positiva a los valores propios: lo hace más estable porque una pequeña perturbación en no cambia demasiado el inverso; lo reduce cerca de ya que ahora el término se multiplica por que está más cerca de cero que la solución OLS con valores propios inversos .0 V - 1 X ′ y 1 / ( d i + λ ) 1 / dX0V−1X′y1/(di+λ)1/d
¡Esto responde satisfactoriamente la parte de álgebra de mi pregunta! Junto con Glen_b answer, hace una explicación completa del problema.
Heisenberg
17
La demostración de @ Glen_b es maravillosa. Solo agregaría que, aparte de la causa exacta del problema y la descripción sobre cómo funciona la regresión penalizada cuadrática, existe la conclusión de que la penalización tiene el efecto neto de reducir los coeficientes que no sean la intersección hacia cero. Esto proporciona una solución directa al problema del sobreajuste que es inherente a la mayoría de los análisis de regresión cuando el tamaño de la muestra no es enorme en relación con el número de parámetros estimados. Casi cualquier penalización hacia cero para las no intercepciones va a mejorar la precisión predictiva sobre un modelo no penalizado.
+1 en la ilustración de Glen_b y los comentarios de estadísticas en el estimador de Ridge. Solo me gustaría agregar un punto de vista puramente matemático (álgebra lineal) en la regresión de Ridge que responde a las preguntas OP 1) y 2).
Primero tenga en cuenta que es una matriz semidefinida positiva simétrica - veces la matriz de covarianza de la muestra. Por lo tanto tiene la descomposición propia.X′X p×p n
Ahora, dado que la inversión matricial corresponde a la inversión de los valores propios, el estimador OLS requiere (tenga en cuenta que ). Obviamente, esto solo funciona si todos los valores propios son estrictamente mayores que cero, . Para esto es imposible; para es en general cierto: esto es donde generalmente nos preocupa la multicolinealidad .(X′X)−1=VD−1V′ V′=V−1 di>0 p≫n n≫p
Como estadísticos, también queremos saber cómo pequeñas perturbaciones en los datos cambian las estimaciones. Está claro que un pequeño cambio en cualquier conduce a una gran variación en si es muy pequeño.X di 1/di di
Entonces, lo que hace la regresión de Ridge es mover todos los valores propios más lejos de cero como
La estabilidad numérica está relacionada con la contracción a cero, ya que ambos son una consecuencia de agregar una constante positiva a los valores propios: lo hace más estable porque una pequeña perturbación en no cambia demasiado el inverso; lo reduce cerca de ya que ahora el término se multiplica por que está más cerca de cero que la solución OLS con valores propios inversos .0 V - 1 X ′ y 1 / ( d i + λ ) 1 / dX 0 V−1X′y 1/(di+λ) 1/d
fuente
La demostración de @ Glen_b es maravillosa. Solo agregaría que, aparte de la causa exacta del problema y la descripción sobre cómo funciona la regresión penalizada cuadrática, existe la conclusión de que la penalización tiene el efecto neto de reducir los coeficientes que no sean la intersección hacia cero. Esto proporciona una solución directa al problema del sobreajuste que es inherente a la mayoría de los análisis de regresión cuando el tamaño de la muestra no es enorme en relación con el número de parámetros estimados. Casi cualquier penalización hacia cero para las no intercepciones va a mejorar la precisión predictiva sobre un modelo no penalizado.
fuente