La prueba de reducir los coeficientes utilizando la regresión de cresta a través de la "descomposición espectral"

20

He entendido cómo la regresión de crestas reduce los coeficientes hacia cero geométricamente. Además, sé cómo demostrar eso en el "Caso Ortonormal" especial, pero estoy confundido sobre cómo funciona en el caso general a través de "Descomposición espectral".

jeza
fuente
44
Has dicho que estás confundido, pero ¿cuál es tu pregunta?
whuber

Respuestas:

30

La pregunta parece pedir una demostración de que la Regresión de Ridge reduce las estimaciones de coeficientes hacia cero, utilizando una descomposición espectral. La descomposición espectral se puede entender como una consecuencia fácil de la descomposición del valor singular (SVD). Por lo tanto, esta publicación comienza con SVD. Lo explica en términos simples y luego lo ilustra con aplicaciones importantes. Luego proporciona la demostración solicitada (algebraica). (El álgebra, por supuesto, es idéntico a la demostración geométrica; simplemente está redactado en un idioma diferente).

La fuente original de esta respuesta se puede encontrar en mis notas del curso de regresión . Esta versión corrige algunos errores menores.


¿Qué es la SVD?

Cualquier matriz , con , se puede escribir dondeX p n X = U D V n×pXpn

X=UDV
  1. n × pU es una matriz .n×p

    • Las columnas de tienen longitud .1U1
    • Las columnas de son mutuamente ortogonales.U
    • Se llaman los principales componentes de .X
  2. p × pV es una matriz .p×p

    • Las columnas de tienen longitud .1V1
    • Las columnas de son mutuamente ortogonales.V
    • Esto hace que sea una rotación de .R pVRp
  3. p × pD es una matriz diagonal .p×p

    • Los elementos diagonales no son negativos. Estos son los valores singulares de . Xd11,d22,,dppX
    • Si lo deseamos, podemos ordenarlos de mayor a menor.

Los criterios (1) y (2) afirman que tanto como son matrices ortonormales . Pueden resumirse perfectamente por las condicionesVUV

UU=1p, VV=1p.

Como consecuencia (que representa una rotación), también. Esto se usará en la derivación de Regresión de cresta a continuación.V V = 1 pVVV=1p

Lo que hace por nosotros

Puede simplificar fórmulas. Esto funciona tanto algebraicamente como conceptualmente. Aquí hay unos ejemplos.

Las ecuaciones normales

Considere la regresión donde, como de costumbre, los son independientes e idénticamente distribuidos de acuerdo con una ley que tiene expectativa cero y varianza finita . La solución de mínimos cuadrados a través de las Ecuaciones normales es Aplicar la SVD y simplificar el desorden algebraico resultante (que es fácil) proporciona una buena idea:varepsilon sigma 2 β = ( X ' X ) - 1 X ' y .y=Xβ+εεσ2

β^=(XX)1Xy.

(XX)1X=((UDV)(UDV))1(UDV)=(VDUUDV)1(VDU)=VD2VVDU=VD1U.

¡La única diferencia entre esto y es que se usan los recíprocos de los elementos de ! En otras palabras, la "ecuación" se resuelve "invirtiendo" : esta pseudoinversión deshace las rotaciones y (simplemente transponiéndolas) y deshace la multiplicación (representada por ) por separado en cada dirección principal.X=VDUDy=XβXUVD

Para referencia futura, observe que las estimaciones "rotadas" son combinaciones lineales de respuestas "rotadas" . Los coeficientes son inversos de los elementos diagonales (positivos) de , iguales a .Vβ^UyDdii1

Covarianza de las estimaciones de coeficientes.

Recuerde que la covarianza de las estimaciones es Usando el SVD, esto se convierte en En otras palabras, la covarianza actúa como la de variables ortogonales , cada una con varianzas , que se han rotado en .

Cov(β^)=σ2(XX)1.
σ2(VD2V)1=σ2VD2V.
k dii2Rk

La matriz del sombrero

La matriz del sombrero esPor medio del resultado anterior podemos reescribirlo como¡Sencillo!

H=X(XX)1X.
H=(UDV)(VD1U)=UU.

Análisis propio (descomposición espectral)

Dado que y es inmediato que

XX=VDUUDV=VD2V
XX=UDVVDU=UD2U,
  • Los valores propios de y son los cuadrados de los valores singulares.XXXX
  • Las columnas de son los vectores propios de .VXX
  • Las columnas de son algunos de los vectores propios de . (Existen otros vectores propios pero corresponden a valores propios cero).UXX

SVD puede diagnosticar y resolver problemas de colinealidad.

Aproximando los regresores

Cuando reemplace los valores singulares más pequeños con ceros, cambiará el producto solo ligeramente. Ahora, sin embargo, los ceros eliminan las columnas correspondientes de , reduciendo efectivamente el número de variables. Siempre que esas columnas eliminadas tengan poca correlación con , esto puede funcionar efectivamente como una técnica de reducción variable.UDVUy

Regresión de cresta

Deje que las columnas de sean estandarizadas, así como la propia . (Esto significa que ya no necesitamos una columna constante en ). Para el estimador de cresta es XyXλ>0

β^R=(XX+λ)1Xy=(VD2V+λ1p)1VDUy=(VD2V+λVV)1VDUy=(V(D2+λ)V)1VDUy=V(D2+λ)1VVDUy=V(D2+λ)1DUy.

La diferencia entre este y es la sustitución de por . β^D1=D2D(D2+λ)1DEn efecto, esto multiplica el original por la fracción . Debido a que (cuando ) el denominador es obviamente mayor que el numerador, el parámetro estima "reducir hacia cero".D2/(D2+λ)λ>0


Este resultado debe entenderse en el sentido algo sutil aludido anteriormente: las estimaciones rotadas siguen siendo combinaciones lineales de los vectores , pero cada coeficiente, que solía ser ha multiplicado por un factor de . Como tal, los coeficientes rotados deben reducirse, pero es posible, cuando es suficientemente pequeño, para que algunos de los realmente aumenten de tamaño.Vβ^RUydii1dii2/(dii2+λ)λβ^R

Para evitar distracciones, se excluyó el caso de uno de más valores singulares cero en esta discusión. En tales circunstancias, si convencionalmente tomamos " " como cero,dii1 entonces todo sigue funcionando. Esto es lo que sucede cuando se usan inversas generalizadas para resolver las ecuaciones normales.

whuber
fuente
1
@Glen_b Ese es un buen punto: ¡necesitaba ser explícito sobre qué fracción estaba considerando! Lo arreglaré
whuber
1
(1) Parte de la ecuación afirma que el producto punto de cada columna de consigo mismo es , de donde cada longitud es (por definición) . (2) deduce de la observación de que es una matriz de rotación, porque esto implica que también es una matriz de rotación. Por lo tanto . Al conectar obtiene . UU=1pU11=1VV=1pVV1(V1)(V1)=1pV1=VVV=(V)V=1p
whuber
1
@Vimal Gracias por la buena sugerencia. Ahora he incluido una explicación en la sección "Ecuaciones normales" donde se introduce el modelo de regresión.
whuber
1
Cuando es simétrico, entonces, por definición, La comparación de los lados izquierdo y derecho inmediatamente muestra la diagonalización de una matriz simétrica real es un caso especial de la SVD y también sugiere que en la SVD de una matriz simétrica, . De hecho, ese es el caso, siempre que no sea degenerado, pero probar que no es completamente elemental, por lo que no entraré en detalles. V D U = X = X = U D V . U = V XX
VDU=X=X=UDV.
U=VX
whuber
1
@ whuber, oh, ¿es así? En el valor ajustado utilizaremos las estimaciones de coeficientes y siempre que se reduzcan a cero, sucederá lo mismo para el valor ajustado. y^
jeza