Explicación lúcida de la "estabilidad numérica de la inversión de la matriz" en la regresión de crestas y su papel en la reducción del sobreajuste

10

Entiendo que podemos emplear la regularización en un problema de regresión de mínimos cuadrados como

w=argminw[(yXw)T(yXw)+λw2]

y que este problema tiene una solución de forma cerrada como:

w^=(XTX+λI)1XTy.

Vemos que en la segunda ecuación, la regularización es simplemente agregar λ a la diagonal de XTX , lo que se hace para mejorar la estabilidad numérica de la inversión de la matriz.

Mi comprensión actual 'cruda' de la estabilidad numérica es que si una función se vuelve más 'numéricamente estable', entonces su salida se verá menos significativamente afectada por el ruido en sus entradas. Tengo dificultades para relacionar este concepto de estabilidad numérica mejorada con una imagen más amplia de cómo evita / reduce el problema del sobreajuste.

He intentado mirar Wikipedia y algunos otros sitios web de universidades, pero no profundizan en explicar por qué esto es así.

principiante
fuente
Regresión de cresta viene a la mente. enlace
EngrStudent
1
Puede encontrar algún valor en la discusión (principalmente descriptiva / intuitiva en lugar de algebraica) en ¿Por qué la estimación de cresta se vuelve mejor que OLS al agregar una constante a la diagonal?
Glen_b -Reinstala a Monica

Respuestas:

2

En el modelo lineal , suponiendo errores no correlacionados con media cero y con rango de columna completo, el estimador de mínimos cuadrados es un estimador imparcial para el parámetro . Sin embargo, este estimador puede tener una alta varianza. Por ejemplo, cuando dos de las columnas de están altamente correlacionadas.Y=Xβ+ϵX(XTX)1XTYβX

El parámetro de penalización hace que un estimador sesgado de , pero disminuye su varianza. Además, es la expectativa posterior de en una regresión bayesiana con un anterior en . En ese sentido, incluimos cierta información en el análisis que dice que los componentes de no deberían estar muy lejos de cero. Nuevamente, esto nos lleva a una estimación puntual sesgada de pero reduce la varianza de la estimación.λw^βw^βN(0,1λI)βββ

En una configuración donde alta dimensión, digamos , el ajuste de mínimos cuadrados coincidirá con los datos casi a la perfección. Si bien es imparcial, esta estimación será muy sensible a las fluctuaciones de los datos porque en dimensiones tan altas, habrá muchos puntos con un alto apalancamiento. En tales situaciones, el signo de algunos componentes de puede determinarse mediante una sola observación. El término de penalización tiene el efecto de reducir estas estimaciones hacia cero, lo que puede reducir el MSE del estimador al reducir la varianza.XNpβ^

Editar: en mi respuesta inicial proporcioné un enlace a un documento relevante y en mi apuro lo eliminé. Aquí está: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf

HStamper
fuente
1
En su forma actual, esto es realmente más un comentario; ¿Crees que podrías desarrollarlo en una respuesta sustantiva?
Silverfish
El final de la p. 5 derecha / arriba de p. 6 a la izquierda, perteneciente a la Figura 3, contiene la discusión clave para la pregunta formulada en esta publicación.
Mark L. Stone
Todo esto es correcto, pero no estoy seguro de que responda la pregunta del OP.
ameba
ameba, vea mi comentario anterior, que se refiere al enlace que se ha editado posteriormente de la respuesta de Eric Mittman, jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf .
Mark L. Stone
1

La estabilidad numérica y el sobreajuste están en cierto sentido relacionados pero son cuestiones diferentes.

El clásico problema OLS:

Considere el clásico problema de mínimos cuadrados:

minimize(over b)(yXb)T(yXb)

La solución es el clásico . Una idea es que según la ley de los grandes números:b^=(XX)1(Xy)

limn1nXXE[xx]limn1nXyE[xy]

Por lo tanto, la estimación de OLS también converge en . (En términos de álgebra lineal, esta es la proyección lineal de la variable aleatoria sobre el alcance lineal de las variables aleatorias .)b^E[xx]1E[xy]yx1,x2,,xk

¿Problemas?

Mecánicamente, ¿qué puede salir mal? ¿Cuáles son los posibles problemas?

  1. Para muestras pequeñas, nuestras estimaciones de muestra de y pueden ser pobres.E[xx]E[xy]
  2. Si las columnas de son colineales (ya sea debido a la colinealidad inherente o al pequeño tamaño de la muestra), ¡el problema tendrá un continuo de soluciones! La solución puede no ser única. X
    • Esto ocurre si tiene un rango deficiente.E[xx]
    • Esto también ocurre si tiene un rango deficiente debido al pequeño tamaño de la muestra en relación con el número de problemas de regresores.XX

El problema (1) puede conducir a un sobreajuste a medida que la estimación comience a reflejar patrones en la muestra que no existen en la población subyacente. La estimación puede reflejar patrones en y que en realidad no existen en yb^1nXX1nXyE[xx]E[xy]

El problema (2) significa que una solución no es única. Imagine que estamos tratando de estimar el precio de los zapatos individuales, pero los pares de zapatos siempre se venden juntos. Este es un problema mal planteado, pero digamos que lo estamos haciendo de todos modos. Podemos creer que el precio del zapato izquierdo más el precio del zapato derecho es igual a $ 50, pero ¿cómo podemos obtener precios individuales? ¿Está bien establecer los precios del zapato izquierdo y el precio del zapato derecho ? ¿Cómo podemos elegir entre todas las posibilidades?pl=45pr=5

Introducir penalización :L2

Ahora considere:

minimize(over b)(yXb)T(yXb)+λb2

Esto puede ayudarnos con ambos tipos de problemas. La penalización empuja nuestra estimación de hacia cero. Esto funciona efectivamente como un Bayesiano antes de que la distribución sobre los valores del coeficiente se centre alrededor de . Eso ayuda con el sobreajuste. Nuestra estimación reflejará tanto los datos como nuestras creencias iniciales de que está cerca de cero.L2b0b

L2 regularización de también siempre nos permite encontrar una solución única a problemas mal planteados. Si conocemos el precio de los zapatos izquierdo y derecho en total a , la solución que también minimiza el norma es elegir .$50L2pl=pr=25

¿Es esto mágico? No. La regularización no es lo mismo que agregar datos que realmente nos permitirían responder la pregunta. regularización en cierto sentido adopta la opinión de que si carece de datos, elija estimaciones más cercanas a .L20

Matthew Gunn
fuente