¿Por qué el descenso de gradiente proximal en lugar de los métodos de subgradiente simples para Lasso?

De hecho, se puede encontrar una solución aproximada para el lazo utilizando métodos de subgradiente. Por ejemplo, supongamos que queremos minimizar la siguiente función de pérdida:

f (w; λ) = ‖ y - X w ‖_{2}^{2} + λ ‖ w ‖_{1}

$f(w; \lambda) = \| y - Xw \|_2^2 + \lambda \|w\|_1$

El gradiente del término de penalización es para y para , pero el término de penalización no es diferenciable en . En cambio, podemos usar el subgradiente , que es el mismo pero tiene un valor de para . $-\lambda$ $w_i < 0$ $\lambda$ $w_i > 0$ $0$ $\lambda \text{sgn}(w)$ $0$ $w_i = 0$

El subgradiente correspondiente para la función de pérdida es:

g (w; λ) = - 2 X^{T} (y - X w) + λ sgn (w)

$g(w; \lambda) = -2X^T (y - X w) + \lambda \text{sgn}(w)$

Podemos minimizar la función de pérdida usando un enfoque similar al descenso de gradiente, pero usando el subgradiente (que es igual al gradiente en todas partes excepto , donde el gradiente no está definido). La solución puede estar muy cerca de la verdadera solución de lazo, pero puede no contener ceros exactos, donde los pesos deberían haber sido cero, en su lugar, toman valores extremadamente pequeños. Esta falta de verdadera escasez es una razón para no utilizar métodos de subgradiente para el lazo. Los solucionadores dedicados aprovechan la estructura del problema para producir soluciones verdaderamente escasas de una manera computacionalmente eficiente. Esta publicación $0$ dice que, además de producir soluciones dispersas, los métodos dedicados (incluidos los métodos de gradiente proximal) tienen tasas de convergencia más rápidas que los métodos de subgrado. Él da algunas referencias.

usuario20160
fuente

¿Por qué el descenso de gradiente proximal en lugar de los métodos de subgradiente simples para Lasso?

Respuestas: