La prueba de reducir los coeficientes utilizando la regresión de cresta a través de la "descomposición espectral"

La pregunta parece pedir una demostración de que la Regresión de Ridge reduce las estimaciones de coeficientes hacia cero, utilizando una descomposición espectral. La descomposición espectral se puede entender como una consecuencia fácil de la descomposición del valor singular (SVD). Por lo tanto, esta publicación comienza con SVD. Lo explica en términos simples y luego lo ilustra con aplicaciones importantes. Luego proporciona la demostración solicitada (algebraica). (El álgebra, por supuesto, es idéntico a la demostración geométrica; simplemente está redactado en un idioma diferente).

La fuente original de esta respuesta se puede encontrar en mis notas del curso de regresión . Esta versión corrige algunos errores menores.

¿Qué es la SVD?

Cualquier matriz , con , se puede escribir donde $n\times p$ $X$ $p \le n$

X = U D V^{'}

$X = UDV^\prime$

$U$ es una matriz . $n\times p$
- Las columnas de tienen longitud . $U$ $1$
- Las columnas de son mutuamente ortogonales. $U$
- Se llaman los principales componentes de . $X$
$V$ es una matriz . $p \times p$
- Las columnas de tienen longitud . $V$ $1$
- Las columnas de son mutuamente ortogonales. $V$
- Esto hace que sea una rotación de . $V$ $\mathbb{R}^p$
$D$ es una matriz diagonal . $p \times p$
- Los elementos diagonales no son negativos. Estos son los valores singulares de . $d_{11}, d_{22}, \ldots, d_{pp}$ $X$
- Si lo deseamos, podemos ordenarlos de mayor a menor.

Los criterios (1) y (2) afirman que tanto como son matrices ortonormales . Pueden resumirse perfectamente por las condiciones $U$ $V$

U^{'} U = 1_{p}, V^{'} V = 1_{p} .

$U^\prime U = 1_p,\ V^\prime V = 1_p.$

Como consecuencia (que representa una rotación), también. Esto se usará en la derivación de Regresión de cresta a continuación. $V$ $VV^\prime = 1_p$

Lo que hace por nosotros

Puede simplificar fórmulas. Esto funciona tanto algebraicamente como conceptualmente. Aquí hay unos ejemplos.

Las ecuaciones normales

Considere la regresión donde, como de costumbre, los son independientes e idénticamente distribuidos de acuerdo con una ley que tiene expectativa cero y varianza finita . La solución de mínimos cuadrados a través de las Ecuaciones normales es Aplicar la SVD y simplificar el desorden algebraico resultante (que es fácil) proporciona una buena idea: $y = X\beta + \varepsilon$ $\varepsilon$ $\sigma^2$

\hat{β} = (X^{'} X)^{- 1} X^{'} y .

$\hat\beta = (X^\prime X)^{-1} X^\prime y.$

(X^{'} X)^{- 1} X^{'} = ((U D V^{'})^{'} (U D V^{'}))^{- 1} (U D V^{'})^{'} = (V D U^{'} U D V^{'})^{- 1} (V D U^{'}) = V D^{- 2} V^{'} V D U^{'} = V D^{- 1} U^{'} .

$(X^\prime X)^{-1} X^\prime = ((UDV^\prime)^\prime (UDV^\prime))^{-1} (UDV^\prime)^\prime \\= (VDU^\prime U D V^\prime)^{-1} (VDU^\prime) = VD^{-2}V^\prime VDU^\prime = VD^{-1}U^\prime.$

¡La única diferencia entre esto y es que se usan los recíprocos de los elementos de ! En otras palabras, la "ecuación" se resuelve "invirtiendo" : esta pseudoinversión deshace las rotaciones y (simplemente transponiéndolas) y deshace la multiplicación (representada por ) por separado en cada dirección principal. $X^\prime = VDU^\prime$ $D$ $y=X\beta$ $X$ $U$ $V^\prime$ $D$

Para referencia futura, observe que las estimaciones "rotadas" son combinaciones lineales de respuestas "rotadas" . Los coeficientes son inversos de los elementos diagonales (positivos) de , iguales a . $V^\prime \hat\beta$ $U^\prime y$ $D$ $d_{ii}^{-1}$

Covarianza de las estimaciones de coeficientes.

Recuerde que la covarianza de las estimaciones es Usando el SVD, esto se convierte en En otras palabras, la covarianza actúa como la de variables ortogonales , cada una con varianzas , que se han rotado en .

Cov (\hat{β}) = σ^{2} (X^{'} X)^{- 1} .

$\text{Cov}(\hat\beta) = \sigma^2(X^\prime X)^{-1}.$

σ^{2} (V D^{2} V^{'})^{- 1} = σ^{2} V D^{- 2} V^{'} .

$\sigma^2(V D^2 V^\prime)^{-1} = \sigma^2 V D^{-2} V^\prime.$

k

$k$

d_{i i}^{2}

$d^2_{ii}$

R^{k}

$\mathbb{R}^k$

La matriz del sombrero

La matriz del sombrero esPor medio del resultado anterior podemos reescribirlo como¡Sencillo!

H = X (X^{'} X)^{- 1} X^{'} .

$H = X(X^\prime X)^{-1} X^\prime.$

H = (U D V^{'}) (V D^{- 1} U^{'}) = U U^{'} .

$H = (UDV^\prime)(VD^{-1}U^\prime) = UU^\prime.$

Análisis propio (descomposición espectral)

Dado que y es inmediato que

X^{'} X = V D U^{'} U D V^{'} = V D^{2} V^{'}

$X^\prime X = VDU^\prime U D V^\prime = VD^2V^\prime$

X X^{'} = U D V^{'} V D U^{'} = U D^{2} U^{'},

$XX^\prime = UDV^\prime VDU^\prime = UD^2U^\prime,$

Los valores propios de y son los cuadrados de los valores singulares. $X^\prime X$ $XX^\prime$
Las columnas de son los vectores propios de . $V$ $X^\prime X$
Las columnas de son algunos de los vectores propios de . (Existen otros vectores propios pero corresponden a valores propios cero). $U$ $X X^\prime$

SVD puede diagnosticar y resolver problemas de colinealidad.

Aproximando los regresores

Cuando reemplace los valores singulares más pequeños con ceros, cambiará el producto solo ligeramente. Ahora, sin embargo, los ceros eliminan las columnas correspondientes de , reduciendo efectivamente el número de variables. Siempre que esas columnas eliminadas tengan poca correlación con , esto puede funcionar efectivamente como una técnica de reducción variable. $UDV^\prime$ $U$ $y$

Regresión de cresta

Deje que las columnas de sean estandarizadas, así como la propia . (Esto significa que ya no necesitamos una columna constante en ). Para el estimador de cresta es $X$ $y$ $X$ $\lambda \gt 0$

\begin{aligned} {\hat{β}}_{R} & = (X^{'} X + λ)^{- 1} X^{'} y \\ = (V D^{2} V^{'} + λ 1_{p})^{- 1} V D U^{'} y \\ = (V D^{2} V^{'} + λ V V^{'})^{- 1} V D U^{'} y \\ = (V (D^{2} + λ) V^{'})^{- 1} V D U^{'} y \\ = V (D^{2} + λ)^{- 1} V^{'} V D U^{'} y \\ = V (D^{2} + λ)^{- 1} D U^{'} y . \end{aligned}

$\begin{aligned}\hat\beta_R &= (X^\prime X + \lambda)^{-1}X^\prime y \\ &= (VD^2V^\prime + \lambda\,1_p)^{-1}VDU^\prime y \\ &= (VD^2V^\prime + \lambda V V^\prime)^{-1}VDU^\prime y \\ &= (V(D^2 + \lambda)V^\prime)^{-1} VDU^\prime y \\ &= V(D^2+\lambda)^{-1}V^\prime V DU^\prime y \\ &= V(D^2 + \lambda)^{-1} D U^\prime y.\end{aligned}$

La diferencia entre este y es la sustitución de por . $\hat\beta$ $D^{-1} = D^{-2}D$ $(D^2+\lambda)^{-1}D$ En efecto, esto multiplica el original por la fracción . Debido a que (cuando ) el denominador es obviamente mayor que el numerador, el parámetro estima "reducir hacia cero". $D^2/(D^2+\lambda)$ $\lambda \gt 0$

Este resultado debe entenderse en el sentido algo sutil aludido anteriormente: las estimaciones rotadas siguen siendo combinaciones lineales de los vectores , pero cada coeficiente, que solía ser ha multiplicado por un factor de . Como tal, los coeficientes rotados deben reducirse, pero es posible, cuando es suficientemente pequeño, para que algunos de los realmente aumenten de tamaño. $V^\prime\hat\beta_R$ $U^\prime y$ $d_{ii}^{-1}$ $d_{ii}^2/(d_{ii}^2 + \lambda)$ $\lambda$ $\hat\beta_R$

Para evitar distracciones, se excluyó el caso de uno de más valores singulares cero en esta discusión. En tales circunstancias, si convencionalmente tomamos " " como cero, $d_{ii}^{-1}$ entonces todo sigue funcionando. Esto es lo que sucede cuando se usan inversas generalizadas para resolver las ecuaciones normales.

whuber
fuente

@Glen_b Ese es un buen punto: ¡necesitaba ser explícito sobre qué fracción estaba considerando! Lo arreglaré

whuber

(1) Parte de la ecuación afirma que el producto punto de cada columna de consigo mismo es , de donde cada longitud es (por definición) . (2) deduce de la observación de que es una matriz de rotación, porque esto implica que también es una matriz de rotación. Por lo tanto . Al conectar obtiene .

U U^{'} = 1_{p}

$UU^\prime=1_p$

U

$U$

1

$1$

\sqrt{1} = 1

$\sqrt{1}=1$

V V^{'} = 1_{p}

$VV^\prime=1_p$

V

$V$

V^{- 1}

$V^{-1}$

(V^{- 1})^{'} (V^{- 1}) = 1_{p}

$(V^{-1})^\prime(V^{-1})=1_p$

V^{- 1} = V^{'}

$V^{-1}=V^\prime$

V V^{'} = (V^{'})^{'} V^{'} = 1_{p}

$VV^\prime=(V^\prime)^\prime V^\prime=1_p$

whuber

@Vimal Gracias por la buena sugerencia. Ahora he incluido una explicación en la sección "Ecuaciones normales" donde se introduce el modelo de regresión.

whuber

Cuando es simétrico, entonces, por definición, La comparación de los lados izquierdo y derecho inmediatamente muestra la diagonalización de una matriz simétrica real es un caso especial de la SVD y también sugiere que en la SVD de una matriz simétrica, . De hecho, ese es el caso, siempre que no sea degenerado, pero probar que no es completamente elemental, por lo que no entraré en detalles.

X

$X$

V D U^{'} = X^{'} = X = U D V^{'} .

$VDU^\prime=X^\prime=X=UDV^\prime.$

U = V

$U=V$

X

$X$

whuber

@ whuber, oh, ¿es así? En el valor ajustado utilizaremos las estimaciones de coeficientes y siempre que se reduzcan a cero, sucederá lo mismo para el valor ajustado.

\hat{y}

$\hat{y}$

jeza

La prueba de reducir los coeficientes utilizando la regresión de cresta a través de la "descomposición espectral"

Respuestas:

¿Qué es la SVD?

Lo que hace por nosotros

Las ecuaciones normales

Covarianza de las estimaciones de coeficientes.

La matriz del sombrero

Análisis propio (descomposición espectral)

Aproximando los regresores

Regresión de cresta