¿Por qué el descenso de gradiente proximal en lugar de los métodos de subgradiente simples para Lasso?

9

Estaba pensando en resolver Lasso a través de métodos de subgrado de vainilla. Pero he leído personas que sugieren usar el descenso de gradiente proximal. ¿Alguien puede resaltar por qué se usa GD proximal en lugar de los métodos de subgradiente de vainilla para Lasso?

chandresh
fuente

Respuestas:

13

De hecho, se puede encontrar una solución aproximada para el lazo utilizando métodos de subgradiente. Por ejemplo, supongamos que queremos minimizar la siguiente función de pérdida:

f(w;λ)=yXw22+λw1

El gradiente del término de penalización es para y para , pero el término de penalización no es diferenciable en . En cambio, podemos usar el subgradiente , que es el mismo pero tiene un valor de para .λwi<0λwi>00λsgn(w)0wi=0

El subgradiente correspondiente para la función de pérdida es:

g(w;λ)=2XT(yXw)+λsgn(w)

Podemos minimizar la función de pérdida usando un enfoque similar al descenso de gradiente, pero usando el subgradiente (que es igual al gradiente en todas partes excepto , donde el gradiente no está definido). La solución puede estar muy cerca de la verdadera solución de lazo, pero puede no contener ceros exactos, donde los pesos deberían haber sido cero, en su lugar, toman valores extremadamente pequeños. Esta falta de verdadera escasez es una razón para no utilizar métodos de subgradiente para el lazo. Los solucionadores dedicados aprovechan la estructura del problema para producir soluciones verdaderamente escasas de una manera computacionalmente eficiente. Esta publicación0dice que, además de producir soluciones dispersas, los métodos dedicados (incluidos los métodos de gradiente proximal) tienen tasas de convergencia más rápidas que los métodos de subgrado. Él da algunas referencias.

usuario20160
fuente