¿Cómo derivar la solución de regresión de cresta?

41

Tengo algunos problemas con la derivación de la solución para la regresión de crestas.

Sé la solución de regresión sin el término de regularización:

β=(XTX)1XTy.

Pero después de agregar el término L2 a la función de costo, ¿cómo es que la solución se convierte enλβ22

β=(XTX+λI)1XTy.
usuario34790
fuente

Respuestas:

24

Es suficiente modificar la función de pérdida agregando la penalización. En términos de matriz, la función de pérdida cuadrática inicial se convierte en

(YXβ)T(YXβ)+λβTβ.
Derivar con respecto a β conduce a la ecuación normal
XTY=(XTX+λI)β
que conduce al estimador de Ridge.
johnny
fuente
1
¿Cómo es que la derivada de λβTβ es igual a λIβ
user34790
44
@ user34790 No lo es. Es igual a 2λβ . Pero el 2 cancela con 2 similares en los otros términos. Por supuesto, el factor I es como un factor de 1 en álgebra "regular", puede multiplicarlo en cualquier lugar que desee sin cambiar nada.
Bill
44
@bill: aquí necesitas el para obtener una matriz de la dimensión correcta para que la suma funcione con : es solo un escalarX T X λIXTXλ
Henry
48

Construyamos sobre lo que sabemos, que es que cada vez que la matriz del modelo es , la respuesta -vector es , y el parámetro -vector es , la función objetivoX n y p βn×pXnypβ

f(β)=(yXβ)(yXβ)

(que es la suma de los cuadrados de los residuos) se minimiza cuando resuelve las ecuaciones normalesβ

(XX)β=Xy.

La regresión de cresta agrega otro término a la función objetivo (generalmente después de estandarizar todas las variables para ponerlas en una base común), pidiendo minimizar

(yXβ)(yXβ)+λββ

para alguna constante no negativa . Es la suma de cuadrados de los residuos más un múltiplo de la suma de cuadrados de los coeficientes mismos (lo que hace obvio que tiene un mínimo global). Como , tiene una raíz cuadrada positiva .λλ0ν2=λ

Considere la matriz aumentada con filas correspondientes a veces la matriz de identidad :Xp × p Iνp×pI

X=(XνI)

Cuando el vector se extiende de manera similar con ceros al final de , el producto matricial en la función objetivo agrega términos adicionales de la forma al objetivo original. Por lo tantop y p ( 0 - ν β i ) 2 = λ β 2 iypyp(0νβi)2=λβi2

(yXβ)(yXβ)=(yXβ)(yXβ)+λββ.

De la forma de la expresión de la mano izquierda, es inmediato que las ecuaciones normales son

(XX)β=Xy.

Como unimos ceros al final de , el lado derecho es el mismo que . En el lado izquierdo se agrega a la . Por lo tanto, las nuevas ecuaciones normales se simplifican aX y ν 2 I = λ I X XyXyν2I=λIXX

(XX+λI)β=Xy.

Además de ser conceptualmente económico, no se necesitan nuevas manipulaciones para obtener este resultado, también es computacionalmente económico: su software para hacer mínimos cuadrados ordinarios también hará una regresión de cresta sin ningún cambio. (Sin embargo, puede ser útil en grandes problemas usar un software diseñado para este propósito, ya que explotará la estructura especial de para obtener resultados de manera eficiente durante un intervalo densamente espaciado de , lo que le permitirá explorar cómo varían las respuestas con .) λ λXλλ

Otra belleza de esta forma de ver las cosas es cómo puede ayudarnos a comprender la regresión de crestas. Cuando realmente queremos entender la regresión, casi siempre ayuda pensar en ella geométricamente: las columnas de constituyen vectores en un espacio vectorial real de dimensión . Al unir a , prolongándolos de -vectores a -vectores, estamos incrustando en un espacio más grande al incluir "imaginario", direcciones mutuamente ortogonales. La primera columna dep n ν I X n n + p R n R n + p p X ν p p th ν ν p ν 0XpnνIXnn+pRnRn+ppXse le da un pequeño componente imaginario de tamaño , alargándolo y sacándolo del espacio generado por las columnas originales . La segunda, tercera, ..., columnas se alargan de manera similar y se mueven fuera del espacio original en la misma cantidad , pero todas en diferentes direcciones nuevas. En consecuencia, cualquier colinealidad presente en las columnas originales se resolverá inmediatamente . Además, cuanto mayor hace, más se acercan estos nuevos vectores al individualνppthννpdirecciones imaginarias: se vuelven cada vez más ortonormales. En consecuencia, la solución de las ecuaciones normales será posible de inmediato y rápidamente se volverá numéricamente estable a medida que aumente de .ν0

Esta descripción del proceso sugiere algunos enfoques novedosos y creativos para abordar los problemas que Ridge Regression fue diseñado para manejar. Por ejemplo, utilizando cualquier medio (como la descomposición de la varianza descrita por Belsley, Kuh y Welsch en su libro de 1980 sobre Diagnóstico de regresión , Capítulo 3), puede identificar subgrupos de columnas casi colineales de , donde cada subgrupo Es casi ortogonal a cualquier otro. Solo necesita unir tantas filas a (y ceros a ) como haya elementos en el grupo más grande, dedicando una nueva dimensión "imaginaria" para desplazar cada elemento de un grupo lejos de sus hermanos: no necesita imaginario dimensiones para hacer esto.X y pXXyp

whuber
fuente
2
El último autor del libro es galés, no galés.
Mark L. Stone
1
Whoa, esto me dejó alucinado. ¿Hay alguna discusión sobre lo que sucede cuando esto se generaliza fuera de los modelos lineales, es decir, a los glm? La penalización no debería alinearse para ser la misma que la regresión de cresta ... ¡pero esta interpretación implica que aún sería un estimador útil potencial!
Cliff AB
2
@ Cliff Esa es una sugerencia muy interesante. Sin embargo, dado que las estimaciones de GLM dependen de una manera más complicada de y sus estimadores generalmente no se pueden factorizar en la forma como lo son para OLS (donde y ), puede ser difícil establecer una relación útil entre la imposición de una función de penalización y la modificación de las columnas de . En particular, no está claro cómo los valores en tendrían que aumentarse para que esto funcione. β = g ( X ) h ( y ) g ( X ) = ( X ' X ) - 1 X ' h ( y ) = y X yX
β^=g(X)h(y)
g(X)=(XX)1Xh(y)=yXy
whuber
1
Sí, tomaría un poco de tiempo tratar de establecer cuál es la penalización, pero no estoy tan preocupado por eso. La idea de qué usar tampoco es generalmente fácil ... excepto quizás en el caso de regresión logística, donde podríamos agregar dos 's; uno de 0 y uno de 1. Este aumento sería una versión más general del "estimador binomial +2" (hay un nombre más apropiado para este estimador que estoy suprimiendo, que es básicamente cuando estás estimando partir de una distribución binomial usando la media posterior como la estimación con un uniforme previo en ). y p py ypp
Cliff AB
@ Mark Gracias por la corrección. Se nota que iba de memoria ... :-).
whuber
20

La derivación incluye cálculo matricial, que puede ser bastante tedioso. Nos gustaría resolver el siguiente problema:

minβ(YβTX)T(YβTX)+λβTβ

Ahora tenga en cuenta que y Juntos llegamos a la condición de primer orden aislamiento produce la solución: λβTβ

(YβTX)T(YβTX)β=2XT(YβTX)
XTY=XTXβ+λβ. ßß=(XTX+λI)-1XTY.
λβTββ=2λβ.
XTY=XTXβ+λβ.
β
β=(XTX+λI)1XTY.
pthesling
fuente
9

Recientemente me he topado con la misma pregunta en el contexto de P-Splines y como el concepto es el mismo, quiero dar una respuesta más detallada sobre la derivación del estimador de cresta.

Comenzamos con una función de criterio penalizado que difiere de la función de criterio OLS clásica por su término de penalización en el último sumando:

CriterionRidge=i=1n(yixiTβ)2+λj=1pβj2

dónde

  • p= la cantidad de covariables utilizadas en el modelo
  • xiTβ= su predictor lineal estándar
  • el primer sumando representa el MSE (divergencia al cuadrado de la predicción del valor real) que queremos minimizar como de costumbre
  • el segundo sumando representa la penalización que aplicamos en los coeficientes. Aquí estamos en el contexto de Ridge que implica una Medida de distancia euclidiana y, por lo tanto, el grado de 2 en el término de penalización. En el caso de una penalización por lazo, aplicaríamos un grado de 1 y obtendríamos un estimador totalmente diferente.

Podemos reescribir este criterio en notación matricial y desglosarlo aún más:

CriterionRidge=(yXβ)T(yXβ)+λβTβ

=yTyβTXTyyTXβ+βTxTXβ+λβTβ

=yTyβTXTyβTXTy+βTXTXβ+βTλIβ siendo la matriz de identidadI

=yTy2βTXTy+βT(XTX+λI)β

Ahora buscamos la que minimiza nuestro criterio. Entre otros, utilizamos la regla de diferenciación de matrices que podemos aplique aquí como : βxTAxx=(A+AT)x=A symmetric2Ax(XTX+λI)Rn×n

CriterionRidgeβ=2XTy+2(XTX+λI)β=!0

(XTX+λI)β=XTy

et voilàβ^=(XTX+λI)1XTy

Jann Goschenhofer
fuente
@Jahn, ¿puedes explicar cómo convirtió en ? Creo que acabas de aplicar la transposición, cierto. Pero, no puede simplemente aplicar la transposición en un término sin aplicarla en todas las ecuaciones. ¿Que me estoy perdiendo aqui?
yTXβ
βTXTy
teatral el
1
@theateist Un escalar transpuesto es el mismo escalar.
Konstantin
2

Hay algunas cosas importantes que faltan en las respuestas dadas.

  1. βfridge(β,λ)β=0β=(XTX+λI)1XTYfridge(β,λ)

  2. fridge(β,λ)fOLS(β)=(YβTX)T(YβTX)||β||22tfridge(β,λ)fOLS(β)||β||22

β

Davor Josipovic
fuente