Derivación de solución de lazo de forma cerrada

52

Para el problema del lazo minβ(YXβ)T(YXβ) tal que β1t . A menudo veo el resultado de umbral suave

βjlasso=sgn(βjLS)(|βjLS|γ)+
para el caso X ortonormal X. Se afirma que la solución puede "mostrarse fácilmente" como tal, pero nunca he visto una solución que funcione. ¿Alguien ha visto uno o tal vez ha hecho la derivación?
Gary
fuente
Esto parece un poco confundido. Al principio, asume una restricción t y en la solución introduce un parámetro γ . Supongo que tiene la intención de que estos dos estén relacionados a través del problema dual, pero tal vez pueda aclarar lo que está buscando.
cardenal
2
Respondiendo parcialmente a @cardinal, encontrar la β que minimiza (YXβ)(YXβ) sujeta a β1t es equivalente a encontrar la β que minimiza (YXβ)(YXβ)+γj|βj|. Hay una relación 1-1 entre t y γ . Para ver "fácilmente" por qué el resultado del umbral suave es así, recomendaría resolver la segunda expresión (en mi comentario).
2
Otra nota, al encontrar el β que minimiza (YXβ)(YXβ)+γj|βj|, divida el problema en los casos \ beta_j> 0βj>0 , βj<0 y β=0 .
2
@cardinal Ah sí, 1-1 es incorrecto. Corrección: para cada t0 , puede encontrar un γ0 .
3
Gracias por una gran discusión! Encontré este video en el curso: derivando la actualización de descenso de coordenadas del lazo , que es muy relevante para esta discusión, y analiza la solución con mucha elegancia. Puede ser útil para futuros visitantes :-)
zorbar

Respuestas:

64

Esto puede ser atacado de varias maneras, incluyendo enfoques bastante económicos a través de las condiciones de Karush-Kuhn-Tucker .

A continuación hay un argumento alternativo bastante elemental.

La solución de mínimos cuadrados para un diseño ortogonal

Supongamos que se compone de columnas ortogonales. Entonces, la solución de mínimos cuadrados es X

β^LS=(XTX)1XTy=XTy.

Algunos problemas equivalentes

A través de la forma lagrangiana, es sencillo ver que un problema equivalente al considerado en la pregunta es

minβ12yXβ22+γβ1.

Expandiendo el primer término obtenemos y dado que no contiene ninguno de las variables de interés, podemos descartarlo y considerar otro problema equivalente, 12yTyyTXβ+12βTβyTy

minβ(yTXβ+12β2)+γβ1.

Teniendo en cuenta que , el problema anterior se puede volver a escribir como β^LS=XTy

minβi=1pβ^iLSβi+12βi2+γ|βi|.

Nuestra función objetivo es ahora una suma de objetivos, cada uno correspondiente a una variable separada , por lo que cada uno puede resolverse individualmente.βi

El todo es igual a la suma de sus partes.

Arreglar un cierto . Entonces, queremos minimizar i

Li=β^iLSβi+12βi2+γ|βi|.

Si , entonces debemos tener ya que de lo contrario podríamos voltear su signo y obtener un valor más bajo para la función objetivo. Del mismo modo, si , entonces debemos elegir .β^iLS>0βi0β^iLS<0βi0

Caso 1 : . Desde , y diferenciando esto con respecto a y estableciendo un valor igual a cero , obtenemos y esto solo es factible si el lado derecho no es negativo, por lo que en este caso la solución real es β^iLS>0βi0

Li=β^iLSβi+12βi2+γβi,
βiβi=β^iLSγ
β^ilasso=(β^iLSγ)+=sgn(β^iLS)(|β^iLS|γ)+.

Caso 2 : . Esto implica que debemos tener y entonces Al diferenciar con respecto a y establecer un valor igual a cero, obtenemos . Pero, una vez más, para garantizar que esto sea factible, necesitamos , que se logra tomando β^iLS0βi0

Li=β^iLSβi+12βi2γβi.
βiβi=β^iLS+γ=sgn(β^iLS)(|β^iLS|γ)βi0
β^ilasso=sgn(β^iLS)(|β^iLS|γ)+.

En ambos casos, obtenemos la forma deseada, y así terminamos.

Observaciones finales

Tenga en cuenta que a medida que aumenta , cada uno de losnecesariamente disminuye, por lo tanto, también lo hace . Cuando , recuperamos las soluciones OLS y, para, obtenemos para todo .γ|β^ilasso|β^lasso1γ=0γ>maxi|β^iLS|β^ilasso=0i

cardenal
fuente
2
Gran crítica @cardinal!
Gary
99
+1 La segunda mitad completa se puede reemplazar por la simple observación de que la función objetivo es Una unión de partes de dos parábolas convexas con vértices en , donde el signo negativo se toma para y el positivo en caso contrario. La fórmula es solo una forma elegante de elegir el vértice inferior. β12β2+(±γβ^)β±γβ^β<0
whuber
Si es posible, me gustaría ver las derivaciones utilizando las condiciones de optimización de KKT. ¿Qué otras formas hay para derivar este resultado?
user1137731
55
@ Cardenal: gracias por una buena derivación. Una observación Si recuerdo, la matriz con columnas ortogonales no es lo mismo que una matriz ortogonal (también conocida como ortonormal). Entonces para alguna matriz diagonal (no necesariamente matriz de identidad). Con el supuesto de la matriz ortogonal (como está en la pregunta original), tenemos y todo se ve muy bien :)XX=DDXX=I
Oleg Melnikov
@cardinal No entiendo por qué dices "ya que de lo contrario podríamos voltear su signo y obtener un valor más bajo para la función objetivo". Estamos tomando la derivada de la función objetivo. Entonces, ¿qué pasa si la función objetivo es mayor o menor, a quién le importa? Todo lo que nos importa es que la derivada se establezca en cero, nos preocupamos por los extremos. Si es más alto o más bajo por una constante, no afecta al argmin.
user13985
7

Suponemos que el covariables , las columnas de , también están estandarizados para que . Esto es solo por conveniencia más adelante: sin él, la notación se vuelve más pesada ya que es solo diagonal. Además suponga que . Esta es una suposición necesaria para que el resultado se mantenga. Defina el estimador de mínimos cuadrados . Luego, el estimador de lazo (forma lagrangiana del) xjXRn×pXTX=IXTXnpβ^OLS=argminβyXβ22

(defn.)β^λ=argminβ12nyXβ22+λβ1(OLS is projection)=argminβ12nXβ^OLSXβ22+λβ1(XTX=I)=argminβ12nβ^OLSβ22+λβ1(algebra)=argminβ12β^OLSβ22+nλβ1(defn.)=proxnλ1(β^OLS)(takes some work)=Snλ(β^OLS),
\ end {align *} donde es el operador proximal de una función y umbrales suaves por la cantidadproxffSαα.

Esta es una derivación que omite la derivación detallada del operador proximal que Cardinal calcula, pero, espero, aclara los pasos principales que hacen posible una forma cerrada.

usuario795305
fuente