Entiendo que podemos emplear la regularización en un problema de regresión de mínimos cuadrados como
y que este problema tiene una solución de forma cerrada como:
Vemos que en la segunda ecuación, la regularización es simplemente agregar a la diagonal de , lo que se hace para mejorar la estabilidad numérica de la inversión de la matriz.
Mi comprensión actual 'cruda' de la estabilidad numérica es que si una función se vuelve más 'numéricamente estable', entonces su salida se verá menos significativamente afectada por el ruido en sus entradas. Tengo dificultades para relacionar este concepto de estabilidad numérica mejorada con una imagen más amplia de cómo evita / reduce el problema del sobreajuste.
He intentado mirar Wikipedia y algunos otros sitios web de universidades, pero no profundizan en explicar por qué esto es así.
fuente
Respuestas:
En el modelo lineal , suponiendo errores no correlacionados con media cero y con rango de columna completo, el estimador de mínimos cuadrados es un estimador imparcial para el parámetro . Sin embargo, este estimador puede tener una alta varianza. Por ejemplo, cuando dos de las columnas de están altamente correlacionadas.Y=Xβ+ϵ X (XTX)−1XTY β X
El parámetro de penalización hace que un estimador sesgado de , pero disminuye su varianza. Además, es la expectativa posterior de en una regresión bayesiana con un anterior en . En ese sentido, incluimos cierta información en el análisis que dice que los componentes de no deberían estar muy lejos de cero. Nuevamente, esto nos lleva a una estimación puntual sesgada de pero reduce la varianza de la estimación.λ w^ β w^ β N(0,1λI) β β β
En una configuración donde alta dimensión, digamos , el ajuste de mínimos cuadrados coincidirá con los datos casi a la perfección. Si bien es imparcial, esta estimación será muy sensible a las fluctuaciones de los datos porque en dimensiones tan altas, habrá muchos puntos con un alto apalancamiento. En tales situaciones, el signo de algunos componentes de puede determinarse mediante una sola observación. El término de penalización tiene el efecto de reducir estas estimaciones hacia cero, lo que puede reducir el MSE del estimador al reducir la varianza.X N≈p β^
Editar: en mi respuesta inicial proporcioné un enlace a un documento relevante y en mi apuro lo eliminé. Aquí está: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf
fuente
La estabilidad numérica y el sobreajuste están en cierto sentido relacionados pero son cuestiones diferentes.
El clásico problema OLS:
Considere el clásico problema de mínimos cuadrados:
La solución es el clásico . Una idea es que según la ley de los grandes números:b^=(X′X)−1(X′y)
Por lo tanto, la estimación de OLS también converge en . (En términos de álgebra lineal, esta es la proyección lineal de la variable aleatoria sobre el alcance lineal de las variables aleatorias .)b^ E[xx′]−1E[xy] y x1,x2,…,xk
¿Problemas?
Mecánicamente, ¿qué puede salir mal? ¿Cuáles son los posibles problemas?
El problema (1) puede conducir a un sobreajuste a medida que la estimación comience a reflejar patrones en la muestra que no existen en la población subyacente. La estimación puede reflejar patrones en y que en realidad no existen en yb^ 1nX′X 1nX′y E[xx′] E[xy]
El problema (2) significa que una solución no es única. Imagine que estamos tratando de estimar el precio de los zapatos individuales, pero los pares de zapatos siempre se venden juntos. Este es un problema mal planteado, pero digamos que lo estamos haciendo de todos modos. Podemos creer que el precio del zapato izquierdo más el precio del zapato derecho es igual a $ 50, pero ¿cómo podemos obtener precios individuales? ¿Está bien establecer los precios del zapato izquierdo y el precio del zapato derecho ? ¿Cómo podemos elegir entre todas las posibilidades?pl=45 pr=5
Introducir penalización :L2
Ahora considere:
Esto puede ayudarnos con ambos tipos de problemas. La penalización empuja nuestra estimación de hacia cero. Esto funciona efectivamente como un Bayesiano antes de que la distribución sobre los valores del coeficiente se centre alrededor de . Eso ayuda con el sobreajuste. Nuestra estimación reflejará tanto los datos como nuestras creencias iniciales de que está cerca de cero.L2 b 0 b
¿Es esto mágico? No. La regularización no es lo mismo que agregar datos que realmente nos permitirían responder la pregunta. regularización en cierto sentido adopta la opinión de que si carece de datos, elija estimaciones más cercanas a .L2 0
fuente