¿Por qué el lazo proporciona selección variable?

He estado leyendo Elementos de aprendizaje estadístico , y me gustaría saber por qué el Lazo proporciona selección de variables y la regresión de crestas no.

Ambos métodos minimizan la suma residual de cuadrados y tienen una restricción sobre los posibles valores de los parámetros . Para Lasso, la restricción es , mientras que para ridge es , para algunos . $\beta$ $||\beta||_1 \le t$ $||\beta||_2 \le t$ $t$

He visto la imagen de diamante vs elipse en el libro y tengo cierta intuición de por qué el lazo puede golpear las esquinas de la región restringida, lo que implica que uno de los coeficientes se establece en cero. Sin embargo, mi intuición es bastante débil, y no estoy convencido. Debería ser fácil de ver, pero no sé por qué esto es cierto.

Así que supongo que estoy buscando una justificación matemática o una explicación intuitiva de por qué es probable que los contornos de la suma residual de cuadrados lleguen a las esquinas de la región restringida (mientras que esta situación es poco probable si la restricción es ). $||\beta||_1$ $||\beta||_2$

regression feature-selection lasso regularization Zhi Zhao
fuente

Todas las respuestas a continuación son buenas explicaciones. Pero publiqué un artículo con representación visual. El siguiente es el enlace medium.com/@vamsi149/…

solver149

Respuestas:

Consideremos un modelo muy simple: , con una penalización L1 en y una función de pérdida de mínimos cuadrados en . Podemos expandir la expresión para minimizarla como: $y = \beta x + e$ $\hat{\beta}$ $\hat{e}$

$\min y^Ty -2 y^Tx\hat{\beta} + \hat{\beta} x^Tx\hat{\beta} + 2\lambda|\hat{\beta}|$

Supongamos que la solución de mínimos cuadrados es alguna , que es equivalente a suponer que , y veamos qué sucede cuando agregamos la penalización L1. Con , , por lo que el término de penalización es igual a . La derivada de la función objetivo wrt es: $\hat{\beta} > 0$ $y^Tx > 0$ $\hat{\beta}>0$ $|\hat{\beta}| = \hat{\beta}$ $2\lambda\beta$ $\hat{\beta}$

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda$

que evidentemente tiene solución . $\hat{\beta} = (y^Tx - \lambda)/(x^Tx)$

Obviamente, al aumentar , podemos llevar a cero (en ). Sin embargo, una vez que , el aumento de no lo volverá negativo, porque, al escribir libremente, el instante vuelve negativo, la derivada de la función objetivo cambia a: $\lambda$ $\hat{\beta}$ $\lambda = y^Tx$ $\hat{\beta} = 0$ $\lambda$ $\hat{\beta}$

$-2y^Tx +2x^Tx\hat{\beta} - 2\lambda$

donde el cambio en el signo de se debe a la naturaleza de valor absoluto del término de penalización; cuando vuelve negativo, el término de penalización se vuelve igual a , y tomar la derivada wrt da como resultado . Esto lleva a la solución , que obviamente es inconsistente con (dado que la solución de mínimos cuadrados , lo que implica y $\lambda$ $\beta$ $-2\lambda\beta$ $\beta$ $-2\lambda$ $\hat{\beta} = (y^Tx + \lambda)/(x^Tx)$ $\hat{\beta} < 0$ $> 0$ $y^Tx > 0$ $\lambda > 0$ ) Hay un aumento en la penalización L1 Y un aumento en el término de error al cuadrado (ya que nos estamos moviendo más lejos de la solución de mínimos cuadrados) al mover de a , por lo que no lo hacemos, simplemente pegarse en . $\hat{\beta}$ $0$ $< 0$ $\hat{\beta}=0$

Debe quedar intuitivamente claro, se aplica la misma lógica, con los cambios de signo apropiados, para una solución de mínimos cuadrados con . $\hat{\beta} < 0$

Sin embargo, con la penalización de mínimos cuadrados , la derivada se convierte en: $\lambda\hat{\beta}^2$

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda\hat{\beta}$

que evidentemente tiene solución . Obviamente, ningún aumento en llevará a cero. Por lo tanto, la penalización de L2 no puede actuar como una herramienta de selección de variables sin un leve ad-hockery como "establecer la estimación del parámetro igual a cero si es menor que ". $\hat{\beta} = y^Tx/(x^Tx + \lambda)$ $\lambda$ $\epsilon$

Obviamente, las cosas pueden cambiar cuando te mueves a modelos multivariantes, por ejemplo, mover un parámetro estimado podría obligar a otro a cambiar de signo, pero el principio general es el mismo: la función de penalización L2 no puede llevarte a cero, porque, al escribir de manera muy heurística, en efecto se agrega al "denominador" de la expresión para , pero la función de penalización L1 puede, porque en efecto se agrega al "numerador". $\hat{\beta}$

jbowman
fuente

¿Lasso también proporciona selección de características en el caso de modelos no lineales, por ejemplo, NN?

Ilya

Una pequeña pregunta de seguimiento: ¿Cómo puede ser si es un vector y es un escalar que podemos variar para encontrar el ajuste?

λ = y^{T} x

$\lambda = y^Tx$

y^{T} x

$y^Tx$

λ

$\lambda$

Jekaterina Kokatjuhha

Estaba usando un ejemplo univariante, entonces es un escalar. Si está resolviendo un problema multivariante, entonces se multiplica por un vector de unos con longitud = el tamaño de o la matriz de identidad de tamaño apropiado, dependiendo del problema que se resuelva. Puede resolverlo observando, por ejemplo, que la norma L2 de = , y haciendo sustituciones en las fórmulas anteriores.

y^{T} x

$y^Tx$

λ

$\lambda$

β

$\beta$

z

$z$

z^{T} I z

$z^T\text{I}z$

jbowman

¿Sería posible mostrar (matemáticamente) cómo cambia el signo de la lambda debido a la naturaleza absoluta de la función de penalización, ya que no puedo seguir esta parte de la lógica.

user1420372

@ user1420372: lo he hecho; Déjame saber lo que piensas.

jbowman

Supongamos que tenemos un conjunto de datos con y = 1 yx = [1/10 1/10] (un punto de datos, dos características). Una solución es elegir una de las características, otra característica es ponderar ambas características. Es decir, podemos elegir w = [5 5] o w = [10 0].

Tenga en cuenta que para la norma L1 ambos tienen la misma penalización, pero el peso más extendido tiene una penalización menor para la norma L2.

blarg
fuente

Creo que ya hay excelentes respuestas, pero solo para agregar algo de intuición con respecto a la interpretación geométrica:

"El lazo realiza la contracción , de modo que hay" esquinas "en la restricción, que en dos dimensiones corresponde a un diamante. Si la suma de cuadrados" golpea "una de estas esquinas, entonces el coeficiente correspondiente al eje se reduce a cero. $L1$

A medida que aumenta , el diamante multidimensional tiene un número creciente de esquinas, por lo que es muy probable que algunos coeficientes se establezcan iguales a cero. Por lo tanto, el lazo realiza la contracción y (efectivamente) la selección de subconjuntos. $p$

En contraste con la selección de subconjuntos, la cresta realiza un umbral suave: a medida que varía el parámetro de suavizado, la ruta de muestreo de las estimaciones se mueve continuamente a cero ".

Fuente: https://onlinecourses.science.psu.edu/stat857/book/export/html/137

El efecto se puede visualizar muy bien donde las líneas de color son las rutas de los coeficientes de regresión que se reducen hacia cero.

"La regresión de cresta reduce todos los coeficientes de regresión hacia cero; el lazo tiende a dar un conjunto de coeficientes de regresión cero y conduce a una solución dispersa".

Fuente: https://onlinecourses.science.psu.edu/stat857/node/158

vonjd
fuente