¿Por qué la regresión de cresta no reducirá algunos coeficientes a cero como el lazo?

Cuando se explica la regresión de LASSO, a menudo se usa el diagrama de un diamante y un círculo. Se dice que debido a que la forma de la restricción en LASSO es un diamante, la solución de mínimos cuadrados obtenida podría tocar la esquina del diamante de modo que conduzca a una contracción de alguna variable. Sin embargo, en la regresión de crestas, debido a que es un círculo, a menudo no tocará el eje. No podía entender por qué no puede tocar el eje o tal vez tener una probabilidad menor que LASSO para reducir ciertos parámetros. Además de eso, ¿por qué LASSO y la cresta tienen una varianza menor que los mínimos cuadrados ordinarios? Lo anterior es mi comprensión de Ridge y LASSO y podría estar equivocado. ¿Alguien puede ayudarme a entender por qué estos dos métodos de regresión tienen una varianza menor?

regression lasso ridge-regression usuario10024395
fuente

Posible duplicado de ¿Por qué el lazo proporciona selección variable?

Juho Kokkala

Ok, la parte de la varianza en negrita no está duplicada, al menos de esta pregunta; entonces tal vez esta pregunta podría ser editada para enfocarse en eso.

Juho Kokkala

Esto se explica bien en la figura 3.11 de web.stanford.edu/~hastie/local.ftp/Springer/OLD/…

@ fcop leí el libro pero no entiendo las matemáticas

user10024395

¿Pero para entender la imagen no necesitas las matemáticas?

Respuestas:

Esto se refiere a la varianza

OLS proporciona lo que se llama el mejor estimador imparcial lineal (AZUL) . Eso significa que si toma cualquier otro estimador imparcial, seguramente tendrá una mayor varianza que la solución OLS. Entonces, ¿por qué deberíamos considerar algo más que eso?

Ahora el truco con la regularización, como el lazo o la cresta, es agregar un sesgo a su vez para tratar de reducir la varianza. Porque cuando usted estima que su error de predicción, es una combinación de tres cosas :

mi [(y - \hat{F} (X))^{2}] = Parcialidad [\hat{F} (X))]^{2} + Var [\hat{F} (X))] + σ^{2}

$\text{E}[(y-\hat{f}(x))^2]=\text{Bias}[\hat{f}(x))]^2 +\text{Var}[\hat{f}(x))]+\sigma^2$ La última parte es el error irreducible, por lo que no tenemos control sobre eso. Usando la solución OLS, el término de sesgo es cero. Pero puede ser que el segundo término sea grande. Podría ser una buena idea ( si queremos buenas predicciones ) agregar un sesgo y, con suerte, reducir la varianza.

Entonces, ¿qué es esto ? Es la varianza introducida en las estimaciones para los parámetros en su modelo. El modelo lineal tiene la forma $\text{Var}[\hat{f}(x))]$ Para obtener la solución OLS resolvemos el problema de minimización Esto proporciona la solución el problema de minimización para la regresión cresta es similar:

y = X β + ϵ, ϵ \sim norte (0 0, σ^{2} yo)

$\mathbf{y}=\mathbf{X}\beta + \epsilon,\qquad \epsilon\sim\mathcal{N}(0,\sigma^2I)$

\arg min_{β} El | El | y - X β El | {El |}^{2}

$\arg \min_\beta ||\mathbf{y}-\mathbf{X}\beta||^2$

{\hat{β}}_{OLS} = (X^{T} X)^{- 1} X^{T} y

$\hat{\beta}_{\text{OLS}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}$

Ahora la solución se vuelve

Entonces estamos añadiendo esta

(llamado la cresta) en la diagonal de la matriz que invertido. El efecto que esto tiene en la matriz

es que "tira" el determinante de la matriz lejos de cero. Por lo tanto, cuando lo inviertes, no obtienes valores propios enormes. Pero eso lleva a otro hecho interesante, a saber, que la varianza de las estimaciones de los parámetros se vuelve más baja.

\arg min_{β} El | El | y - X β El | {El |}^{2} + λ El | El | β El | {El |}^{2} λ > 0 0

$\arg \min_\beta ||\mathbf{y}-\mathbf{X}\beta||^2+\lambda||\beta||^2\qquad \lambda>0$

{\hat{β}}_{Cresta} = (X^{T} X + λ yo)^{- 1} X^{T} y

$\hat{\beta}_{\text{Ridge}} = (\mathbf{X}^T\mathbf{X}+\lambda I)^{-1}\mathbf{X}^T\mathbf{y}$

λ I

$\lambda I$

X^{T} X

$\mathbf{X}^T\mathbf{X}$

No estoy seguro si puedo proporcionar una respuesta más clara que esta. Todo esto se reduce a la matriz de covarianza para los parámetros en el modelo y la magnitud de los valores en esa matriz de covarianza.

Tomé la regresión de cresta como ejemplo, porque eso es mucho más fácil de tratar. El lazo es mucho más difícil y todavía hay una investigación activa en curso sobre ese tema.

Estas diapositivas proporcionan más información y este blog también tiene información relevante.

EDIT: ¿Qué quiero decir que mediante la adición de la cresta el determinante se " retiró " lejos de cero?

$\mathbf{X}^T\mathbf{X}$

det (X^{T} X - t yo) = 0 0

$\text{det}(\mathbf{X}^T\mathbf{X}-tI)=0$

t

$t$

det (X^{T} X + λ yo - t yo) = 0 0

$\text{det}(\mathbf{X}^T\mathbf{X}+\lambda I-tI)=0$

det (X^{T} X - (t - λ) yo) = 0 0

$\text{det}(\mathbf{X}^T\mathbf{X}-(t-\lambda)I)=0$ Entonces podemos resolver esto por

(t - λ)

$(t-\lambda)$ y obtener los mismos valores propios que para el primer problema. Supongamos que un valor propio es

t_{i}

$t_i$ . Entonces el valor propio para el problema de la cresta se convierte en

t_{i} + λ

$t_i+\lambda$ . Se desplaza por

λ

$\lambda$ . Esto le sucede a todos los valores propios, por lo que todos se alejan de cero.

Aquí hay un código R para ilustrar esto:

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

Lo que da los resultados:

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

Entonces, todos los valores propios se desplazan exactamente 3.

También puede probar esto en general utilizando el teorema del círculo de Gershgorin . Allí, los centros de los círculos que contienen los valores propios son los elementos diagonales. Siempre puede agregar "suficiente" al elemento diagonal para hacer todos los círculos en el semiplano real positivo. Ese resultado es más general y no es necesario para esto.

Gumeo
fuente

¿Puede explicar cómo "saca" el determinante de cero (matemáticamente)? Gracias

user10024395

@ user2675516 He editado mi respuesta.

Gumeo

"Eso significa que si toma cualquier otro estimador imparcial, seguramente tendrá una mayor varianza que la solución OLS". ¿Te refieres a un mayor sesgo que OLS? Pensé que OLS tiene menos sesgo, por lo que cualquier otra cosa tendría un sesgo más alto. Por

favor

@ML_Pro OLS tiene sesgo cero, y de todos los estimadores insesgados, tiene la varianza más pequeña. Este es un teorema . Entonces, si elige cualquier otro, la varianza aumentará. Pero si te regularizas, introduces un sesgo.

Gumeo

¡Gracias! Tu respuesta me hizo sentir curiosidad. ¿Puedes responder esta nueva pregunta que creé? stats.stackexchange.com/questions/294926/…

GeorgeOfTheRF

Regresión de cresta

L2 = (y-xβ) ^ 2 + λ∑βi ^ 2

Resolverá esta ecuación solo para un β por ahora y luego puede generalizar esto:

Entonces, (y-xβ) ^ 2 + λβ ^ 2 esta es nuestra ecuación para un β.

Nuestro objetivo es minimizar la ecuación anterior, para poder hacer esto, igualaremos esto a cero y tomaremos las derivadas wrt β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- Usando (ab) ^ 2 expansión

Derivados parciales wrt

-2xy + 2x ^ 2β + 2βλ = 0

2β (x ^ 2 + λ) = 2xy

β = 2xy / 2 (x ^ 2 + λ)

Finalmente

β = xy / (x ^ 2 + λ)

Si observa el denominador, nunca se convertirá en cero, ya que estamos agregando algún valor de λ (es decir, hiperparámetro). Y, por lo tanto, el valor de β será lo más bajo posible pero no será cero.

Regresión LASSO:

L1 = (y-xβ) ^ 2 + λ∑ | β |

Resolverá esta ecuación solo para un β por ahora y luego puede generalizar esto a más β:

Entonces, (y-xβ) ^ 2 + λβ esta es nuestra ecuación para un β, aquí he considerado el valor + ve de β.

Nuestro objetivo es minimizar la ecuación anterior, para poder hacer esto, igualaremos esto a cero y tomaremos las derivadas wrt β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- Usando (ab) ^ 2 expansión

Derivados parciales wrt

-2xy + 2x ^ 2β + λ = 0

2x ^ 2β + λ = 2xy

2x ^ 2β = 2xy-λ

Finalmente

β = (2xy-λ) / (2X ^ 2)

Si observa el numerador, se convertirá en cero, ya que estamos restando algún valor de λ (es decir, hiperparámetro). Y, por lo tanto, el valor de β se establecerá como cero.

Chetan Patil
fuente