Tengo algunos problemas con la derivación de la solución para la regresión de crestas.
Sé la solución de regresión sin el término de regularización:
Pero después de agregar el término L2 a la función de costo, ¿cómo es que la solución se convierte en
regression
least-squares
regularization
ridge-regression
usuario34790
fuente
fuente
Construyamos sobre lo que sabemos, que es que cada vez que la matriz del modelo es , la respuesta -vector es , y el parámetro -vector es , la función objetivoX n y p βn × p X norte y pags β
(que es la suma de los cuadrados de los residuos) se minimiza cuando resuelve las ecuaciones normalesβ
La regresión de cresta agrega otro término a la función objetivo (generalmente después de estandarizar todas las variables para ponerlas en una base común), pidiendo minimizar
para alguna constante no negativa . Es la suma de cuadrados de los residuos más un múltiplo de la suma de cuadrados de los coeficientes mismos (lo que hace obvio que tiene un mínimo global). Como , tiene una raíz cuadrada positiva .λ λ≥0 ν2=λ
Considere la matriz aumentada con filas correspondientes a veces la matriz de identidad :X p × p Iν p×p I
Cuando el vector se extiende de manera similar con ceros al final de , el producto matricial en la función objetivo agrega términos adicionales de la forma al objetivo original. Por lo tantop y ∗ p ( 0 - ν β i ) 2 = λ β 2 iy p y∗ p (0−νβi)2=λβ2i
De la forma de la expresión de la mano izquierda, es inmediato que las ecuaciones normales son
Como unimos ceros al final de , el lado derecho es el mismo que . En el lado izquierdo se agrega a la . Por lo tanto, las nuevas ecuaciones normales se simplifican aX ′ y ν 2 I = λ I X ′ Xy X′y ν2I=λI X′X
Además de ser conceptualmente económico, no se necesitan nuevas manipulaciones para obtener este resultado, también es computacionalmente económico: su software para hacer mínimos cuadrados ordinarios también hará una regresión de cresta sin ningún cambio. (Sin embargo, puede ser útil en grandes problemas usar un software diseñado para este propósito, ya que explotará la estructura especial de para obtener resultados de manera eficiente durante un intervalo densamente espaciado de , lo que le permitirá explorar cómo varían las respuestas con .) λ λX∗ λ λ
Otra belleza de esta forma de ver las cosas es cómo puede ayudarnos a comprender la regresión de crestas. Cuando realmente queremos entender la regresión, casi siempre ayuda pensar en ella geométricamente: las columnas de constituyen vectores en un espacio vectorial real de dimensión . Al unir a , prolongándolos de -vectores a -vectores, estamos incrustando en un espacio más grande al incluir "imaginario", direcciones mutuamente ortogonales. La primera columna dep n ν I X n n + p R n R n + p p X ν p p th ν ν p ν 0X p n νI X n n+p Rn Rn+p p X se le da un pequeño componente imaginario de tamaño , alargándolo y sacándolo del espacio generado por las columnas originales . La segunda, tercera, ..., columnas se alargan de manera similar y se mueven fuera del espacio original en la misma cantidad , pero todas en diferentes direcciones nuevas. En consecuencia, cualquier colinealidad presente en las columnas originales se resolverá inmediatamente . Además, cuanto mayor hace, más se acercan estos nuevos vectores al individualν p pth ν ν p direcciones imaginarias: se vuelven cada vez más ortonormales. En consecuencia, la solución de las ecuaciones normales será posible de inmediato y rápidamente se volverá numéricamente estable a medida que aumente de .ν 0
Esta descripción del proceso sugiere algunos enfoques novedosos y creativos para abordar los problemas que Ridge Regression fue diseñado para manejar. Por ejemplo, utilizando cualquier medio (como la descomposición de la varianza descrita por Belsley, Kuh y Welsch en su libro de 1980 sobre Diagnóstico de regresión , Capítulo 3), puede identificar subgrupos de columnas casi colineales de , donde cada subgrupo Es casi ortogonal a cualquier otro. Solo necesita unir tantas filas a (y ceros a ) como haya elementos en el grupo más grande, dedicando una nueva dimensión "imaginaria" para desplazar cada elemento de un grupo lejos de sus hermanos: no necesita imaginario dimensiones para hacer esto.X y pX X y p
fuente
La derivación incluye cálculo matricial, que puede ser bastante tedioso. Nos gustaría resolver el siguiente problema:
Ahora tenga en cuenta que y Juntos llegamos a la condición de primer orden aislamiento produce la solución: ∂λβTβ
fuente
Recientemente me he topado con la misma pregunta en el contexto de P-Splines y como el concepto es el mismo, quiero dar una respuesta más detallada sobre la derivación del estimador de cresta.
Comenzamos con una función de criterio penalizado que difiere de la función de criterio OLS clásica por su término de penalización en el último sumando:
dónde
Podemos reescribir este criterio en notación matricial y desglosarlo aún más:
Ahora buscamos la que minimiza nuestro criterio. Entre otros, utilizamos la regla de diferenciación de matrices que podemos aplique aquí como :β ∂xTAx∂x=(A+AT)x=A symmetric2Ax (XTX+λI)∈Rn×n
fuente
Hay algunas cosas importantes que faltan en las respuestas dadas.
fuente