He entendido cómo la regresión de crestas reduce los coeficientes hacia cero geométricamente. Además, sé cómo demostrar eso en el "Caso Ortonormal" especial, pero estoy confundido sobre cómo funciona en el caso general a través de "Descomposición espectral".
20
Respuestas:
La pregunta parece pedir una demostración de que la Regresión de Ridge reduce las estimaciones de coeficientes hacia cero, utilizando una descomposición espectral. La descomposición espectral se puede entender como una consecuencia fácil de la descomposición del valor singular (SVD). Por lo tanto, esta publicación comienza con SVD. Lo explica en términos simples y luego lo ilustra con aplicaciones importantes. Luego proporciona la demostración solicitada (algebraica). (El álgebra, por supuesto, es idéntico a la demostración geométrica; simplemente está redactado en un idioma diferente).
La fuente original de esta respuesta se puede encontrar en mis notas del curso de regresión . Esta versión corrige algunos errores menores.
¿Qué es la SVD?
Cualquier matriz , con , se puede escribir dondeX p ≤ n X = U D V ′n×p X p≤n
n × pU es una matriz .n×p
p × pV es una matriz .p×p
p × pD es una matriz diagonal .p×p
Los criterios (1) y (2) afirman que tanto como son matrices ortonormales . Pueden resumirse perfectamente por las condicionesVU V
Como consecuencia (que representa una rotación), también. Esto se usará en la derivación de Regresión de cresta a continuación.V V ′ = 1 pV VV′=1p
Lo que hace por nosotros
Puede simplificar fórmulas. Esto funciona tanto algebraicamente como conceptualmente. Aquí hay unos ejemplos.
Las ecuaciones normales
Considere la regresión donde, como de costumbre, los son independientes e idénticamente distribuidos de acuerdo con una ley que tiene expectativa cero y varianza finita . La solución de mínimos cuadrados a través de las Ecuaciones normales es Aplicar la SVD y simplificar el desorden algebraico resultante (que es fácil) proporciona una buena idea:varepsilon sigma 2 β = ( X ' X ) - 1 X ' y .y=Xβ+ε ε σ2
¡La única diferencia entre esto y es que se usan los recíprocos de los elementos de ! En otras palabras, la "ecuación" se resuelve "invirtiendo" : esta pseudoinversión deshace las rotaciones y (simplemente transponiéndolas) y deshace la multiplicación (representada por ) por separado en cada dirección principal.X′=VDU′ D y=Xβ X U V′ D
Para referencia futura, observe que las estimaciones "rotadas" son combinaciones lineales de respuestas "rotadas" . Los coeficientes son inversos de los elementos diagonales (positivos) de , iguales a .V′β^ U′y D d−1ii
Covarianza de las estimaciones de coeficientes.
Recuerde que la covarianza de las estimaciones es Usando el SVD, esto se convierte en En otras palabras, la covarianza actúa como la de variables ortogonales , cada una con varianzas , que se han rotado en .
La matriz del sombrero
La matriz del sombrero esPor medio del resultado anterior podemos reescribirlo como¡Sencillo!
Análisis propio (descomposición espectral)
Dado que y es inmediato que
SVD puede diagnosticar y resolver problemas de colinealidad.
Aproximando los regresores
Cuando reemplace los valores singulares más pequeños con ceros, cambiará el producto solo ligeramente. Ahora, sin embargo, los ceros eliminan las columnas correspondientes de , reduciendo efectivamente el número de variables. Siempre que esas columnas eliminadas tengan poca correlación con , esto puede funcionar efectivamente como una técnica de reducción variable.UDV′ U y
Regresión de cresta
Deje que las columnas de sean estandarizadas, así como la propia . (Esto significa que ya no necesitamos una columna constante en ). Para el estimador de cresta esX y X λ>0
La diferencia entre este y es la sustitución de por .β^ D−1=D−2D (D2+λ)−1D En efecto, esto multiplica el original por la fracción . Debido a que (cuando ) el denominador es obviamente mayor que el numerador, el parámetro estima "reducir hacia cero".D2/(D2+λ) λ>0
Este resultado debe entenderse en el sentido algo sutil aludido anteriormente: las estimaciones rotadas siguen siendo combinaciones lineales de los vectores , pero cada coeficiente, que solía ser ha multiplicado por un factor de . Como tal, los coeficientes rotados deben reducirse, pero es posible, cuando es suficientemente pequeño, para que algunos de los realmente aumenten de tamaño.V′β^R U′y d−1ii d2ii/(d2ii+λ) λ β^R
Para evitar distracciones, se excluyó el caso de uno de más valores singulares cero en esta discusión. En tales circunstancias, si convencionalmente tomamos " " como cero,d−1ii entonces todo sigue funcionando. Esto es lo que sucede cuando se usan inversas generalizadas para resolver las ecuaciones normales.
fuente