¿Por qué la norma L1 para modelos dispersos?

97

Estoy leyendo los libros sobre regresión lineal. Hay algunas oraciones sobre la norma L1 y L2. Los conozco, simplemente no entiendo por qué la norma L1 para modelos dispersos. ¿Puede alguien usar dar una explicación simple?

regression lasso regularization ridge-regression Yongwei Xing
fuente

44

Básicamente, la escasez es inducida por bordes afilados que se encuentran en el eje de una isosuperficie. La mejor explicación gráfica que he encontrado hasta ahora está en este video: youtube.com/watch?v=sO4ZirJh9ds

felipeduque

1

Hay un artículo de blog sobre el mismo chioka.in/…

prashanth

Consulta la siguiente publicación de Medium. Podría ayudar a medium.com/@vamsi149/…

solver149

111

Considere el vector donde es pequeño. Las normas y de , respectivamente, están dadas por $\vec{x}=(1,\varepsilon)\in\mathbb{R}^2$ $\varepsilon>0$ $l_1$ $l_2$ $\vec{x}$

| | \vec{x} | |_{1} = 1 + ε, | | \vec{x} | |_{2}^{2} = 1 + ε^{2}

$||\vec{x}||_1 = 1+\varepsilon,\ \ ||\vec{x}||_2^2 = 1+\varepsilon^2$

Ahora digamos que, como parte de algún procedimiento de regularización, vamos a reducir la magnitud de uno de los elementos de en . Si cambiamos a , las normas resultantes son $\vec{x}$ $\delta\leq\varepsilon$ $x_1$ $1-\delta$

| | \vec{x} - (δ, 0) | |_{1} = 1 - δ + ε, | | \vec{x} - (δ, 0) | |_{2}^{2} = 1 - 2 δ + δ^{2} + ε^{2}

$||\vec{x}-(\delta,0)||_1 = 1-\delta+\varepsilon,\ \ ||\vec{x}-(\delta,0)||_2^2 = 1-2\delta+\delta^2+\varepsilon^2$

Por otro lado, reducir en da normas $x_2$ $\delta$

| | \vec{x} - (0, δ) | |_{1} = 1 - δ + ε, | | \vec{x} - (0, δ) | |_{2}^{2} = 1 - 2 ε δ + δ^{2} + ε^{2}

$||\vec{x}-(0,\delta)||_1 = 1-\delta+\varepsilon,\ \ ||\vec{x}-(0,\delta)||_2^2 = 1-2\varepsilon\delta+\delta^2+\varepsilon^2$

Lo que hay que notar aquí es que, para una penalización de , regularizar el término más grande da como resultado una reducción mucho mayor en la norma que hacerlo al término más pequeño . Para el pena, sin embargo, la reducción es el mismo. Por lo tanto, cuando se penaliza un modelo que utiliza la norma , es muy poco probable que algo se establezca en cero, ya que la reducción en la norma va de a es casi inexistente cuando es pequeño. Por otro lado, la reducción en $l_2$ $x_1$ $x_2\approx 0$ $l_1$ $l_2$ $l_2$ $\varepsilon$ $0$ $\varepsilon$ $l_1$ la norma siempre es igual a , independientemente de la cantidad penalizada. $\delta$

Otra forma de pensar de la misma: no es tanto que sanciones animan escasez, pero que sanciones en algún sentido desalentar escasez cediendo rendimientos decrecientes como elementos se mueven más cerca de cero. $l_1$ $l_2$

bnaul
fuente

3

¡Gracias por tu respuesta! Sin embargo, no estoy convencido por el último punto. Si ejecuta una regresión lineal no penalizada, casi nunca obtendrá soluciones dispersas (mientras que agregar una penalización L1 a menudo le dará escasez). Por lo tanto, las penalizaciones L1 de hecho fomentan la escasez al enviar coeficientes que comienzan cerca de cero a cero exactamente.

Stefan Wager

2

@StefanWager tal vez sea un poco exagerado, pero creo que es cierto que no hay nada especial sobre la penalización

aquí: una penalización

para cualquier

también inducirá escasez, pero los ves con menos frecuencia en la práctica ( probablemente porque no son convexos). Si realmente solo quiere escasez, entonces una penalización de

(proporcional al número de entradas que no son cero) es el camino a seguir, simplemente sucede que es un poco una pesadilla trabajar con él.

l_{1}

$l_1$

l_{α}

$l_\alpha$

α \leq 1

$\alpha\leq1$

l_{0}

$l_0$

bnaul

1

Si eso es correcto. Hay muchas normas que conducen a la escasez (por ejemplo, como mencionó, cualquier norma Lp con p <= 1). En general, cualquier norma con una esquina afilada en cero induce escasez. Entonces, volviendo a la pregunta original: la norma L1 induce la escasez al tener un gradiente discontinuo en cero (y cualquier otra penalización con esta propiedad también lo hará).

Stefan Wager

3

En caso de que alguien quiera leer más, hay una literatura activa sobre funciones de penalización no convexas que son alternativas a la norma L1 (por ejemplo, recientemente, papers.nips.cc/paper/… ).

Stefan Wager

1

gran respuesta, me he estado preguntando por un tiempo hasta que encontré esto.

Hady Elsahar

73

Con un modelo disperso, pensamos en un modelo donde muchos de los pesos son 0. Por lo tanto, razonemos acerca de cómo la regularización L1 es más probable que cree pesos 0.

Considere un modelo que consta de los pesos . $(w_1, w_2, \dots, w_m)$

Con la regularización L1, penaliza el modelo con una función de pérdida = . $L_1(w)$ $\Sigma_i |w_i|$

Con la regularización L2, penaliza el modelo con una función de pérdida = $L_2(w)$ $\frac{1}{2} \Sigma_i w_i^2$

Si usa el descenso de gradiente, hará que los pesos cambien de forma iterativa en la dirección opuesta del gradiente con un tamaño de paso multiplicado por el gradiente. Esto significa que un gradiente más empinado nos hará dar un paso más grande, mientras que un gradiente más plano nos hará dar un paso más pequeño. Veamos los gradientes (subgradiente en el caso de L1): $\eta$

$\frac{dL_1(w)}{dw} = sign(w)$ $sign(w) = (\frac{w_1}{|w_1|}, \frac{w_2}{|w_2|}, \dots, \frac{w_m}{|w_m|})$

$\frac{dL_2(w)}{dw} = w$

Si trazamos la función de pérdida y es derivada para un modelo que consta de un solo parámetro, se verá así para L1:

ingrese la descripción de la imagen aquí

Y así para L2:

$L_1$ $w_1 = 0$ $L_2$

$w_1 = 5$ $\eta = \frac{1}{2}$ $w_1 := w_1 - \eta \cdot \frac{dL_1(w)}{dw} = w_1 - \frac{1}{2} \cdot 1$ $w_1 = 0$

ingrese la descripción de la imagen aquí

$\eta = \frac{1}{2}$ $w_1$ $w_1 := w_1 - \eta \cdot \frac{dL_2(w)}{dw} = w_1 - \frac{1}{2} \cdot w_1$

ingrese la descripción de la imagen aquí

$\eta$

Kent Munthe Caspersen
fuente

3

η = 0.5

$\eta = 0.5$

w_{f i r s t s t e p} = 0.1 - 0.5 * (+ 1) => w = - 0.4

$w_{first\text{ }step} = 0.1 - 0.5*(+1) => w = -0.4$

w_{s e c o n d s t e p} = - 0.4 - 0.5 * (- 1) = 0.1.

$w_{second step} = -0.4 - 0.5*(-1) = 0.1.$

55

@AlexYashin es correcto: si solo actualizamos los pesos basados en la regularización L1, podríamos terminar teniendo pesos que oscilan cerca de 0. Pero nunca usamos la regularización solo para ajustar los pesos. Usamos la regularización en combinación con la optimización de una función de pérdida. De esa manera, la regularización empuja los pesos hacia cero mientras que al mismo tiempo tratamos de llevar los pesos a un valor que optimice las predicciones. Un segundo aspecto es la tasa de aprendizaje. Con una tasa de aprendizaje menor, podemos acercarnos tanto al valor que puede oscilar la regularización que podemos descuidarlo

Kent Munthe Caspersen

1

¿Por qué dL2(w)/dwes 'módulo' y no solo lineal?

mrgloom

1

@mrgloom dL2(w)/dwpuede leerse como el cambio L2(w)por cambio de peso. Dado que la regularización L2 cuadra los pesos, L2(w)cambiará mucho más por el mismo cambio de pesos cuando tengamos pesos más altos. Es por eso que la función es convexa cuando la traza. Sin embargo, para L1, el cambio L1(w)por cambio de peso es el mismo independientemente de cuáles sean sus pesos, esto lleva a una función lineal.

Kent Munthe Caspersen

1

@KentMuntheCaspersen ¡Explicación increíble! ¡Gracias por los gráficos y el esfuerzo que invirtió para hacer esto intuitivo!

Layer

15

La figura 3.11 de Elementos de aprendizaje estadístico de Hastie, Tibshirani y Friedman es muy ilustrativa:

$\hat{\beta}$ $\beta_1$ $\beta_2$ $\hat{\beta}$ $L_1$ $L_2$ ) regresión respectivamente. Heurísticamente, para cada método, buscamos la intersección de las elipses rojas y la región azul ya que el objetivo es minimizar la función de error mientras se mantiene la viabilidad.

$L_1$

Zhanxiong
fuente

16

La ilustración no es muy convincente sin información adicional. Por ejemplo, ¿por qué deberían ubicarse los contornos del error donde están en la figura?

wabbit

@HrishikeshGanu Eventualmente tuve tiempo para editar la publicación.

Zhanxiong

Todos los contornos tendrán la misma forma ...

kjetil b halvorsen

1

\hat{β}

$\hat{\beta}$

β_{1}

$\beta_1$

β_{2}

$\beta_2$

β_{1} = β_{2}

$\beta_1 = \beta_2$

13

$\hat \beta$ $\hat \beta$ $\ell_1 (\hat \beta) < t$ $\ell_2 (\hat \beta) < t$

$\ell_1$ $\ell_1$ $\{ x : \ell_1(x) \le 1\}$

En términos más generales, este libro es una buena referencia sobre este tema: tanto explicaciones rigurosas como bien ilustradas, excelentes.

Elvis
fuente

3

Creo que su segundo párrafo es una clave ... al menos para mi intuición: una "bola" l1 es más como un diamante que tiene púas a lo largo de los ejes, lo que significa que un hiperplano obligado a golpear es más probable que tenga un cero en Los ejes.

Wayne

2

\hat{β}

$\hat \beta$

ℓ_{1}

$\ell_1$

ℓ_{2}

$\ell_2$

ℓ_{1}

$\ell_1$

ℓ_{2}

$\ell_2$

\hat{β}

$\hat \beta$

3

El libro es bueno, pero nunca explica de dónde vino y las matemáticas detrás de él.

user13985

2

Una respuesta simple no matemática sería:

Para L2: el término de penalización es cuadrado , por lo que elevar al cuadrado un valor pequeño lo reducirá. No tenemos que ponerlo a cero para lograr nuestro objetivo de obtener un error mínimo cuadrado, lo conseguiremos antes.

Por L1: término de penalización es absoluta , nos podríamos necesitamos ir a cero , ya que hay ningún catalizador para hacer más pequeña pequeña .

Este es mi punto de vista.

Arnab Mukherjee
fuente

No muy convincente para mí.

Tyler 十三将士归玉门

2

La imagen muestra las formas del área ocupada por las Normas L1 y L2. La segunda imagen consiste en varios contornos de Pendiente de Gradiente para varios problemas de regresión. En todas las gráficas de contorno, observe el círculo rojo que se cruza con la Norma Ridge o L2. La intersección no está en los ejes. El círculo negro en todos los contornos representa el que interesa la Norma L1 o Lazo. Se cruza relativamente cerca de los ejes. Esto da como resultado que los coeficientes sean 0 y, por lo tanto, la selección de características. Por lo tanto, la norma L1 hace que el modelo sea escaso.

Explicación más detallada en el siguiente enlace: Haga clic en Publicar en Towards Data Science

solucionador149
fuente

ℓ_{2}

$\ell_2$

β_{1} = 1

$\beta_1 = 1$

β_{1} = 0

$\beta_1 = 0$

L_{1}

$L_1$

¿Por qué la norma L1 para modelos dispersos?

Respuestas: