Para el problema del lazo tal que . A menudo veo el resultado de umbral suave
para el caso X ortonormal . Se afirma que la solución puede "mostrarse fácilmente" como tal, pero nunca he visto una solución que funcione. ¿Alguien ha visto uno o tal vez ha hecho la derivación?
Respuestas:
Esto puede ser atacado de varias maneras, incluyendo enfoques bastante económicos a través de las condiciones de Karush-Kuhn-Tucker .
A continuación hay un argumento alternativo bastante elemental.
La solución de mínimos cuadrados para un diseño ortogonal
Supongamos que se compone de columnas ortogonales. Entonces, la solución de mínimos cuadrados esX
Algunos problemas equivalentes
A través de la forma lagrangiana, es sencillo ver que un problema equivalente al considerado en la pregunta es
Expandiendo el primer término obtenemos y dado que no contiene ninguno de las variables de interés, podemos descartarlo y considerar otro problema equivalente,12yTy−yTXβ+12βTβ yTy
Teniendo en cuenta que , el problema anterior se puede volver a escribir comoβ^LS=XTy
Nuestra función objetivo es ahora una suma de objetivos, cada uno correspondiente a una variable separada , por lo que cada uno puede resolverse individualmente.βi
El todo es igual a la suma de sus partes.
Arreglar un cierto . Entonces, queremos minimizari
Si , entonces debemos tener ya que de lo contrario podríamos voltear su signo y obtener un valor más bajo para la función objetivo. Del mismo modo, si , entonces debemos elegir .β^LSi>0 βi≥0 β^LSi<0 βi≤0
Caso 1 : . Desde , y diferenciando esto con respecto a y estableciendo un valor igual a cero , obtenemos y esto solo es factible si el lado derecho no es negativo, por lo que en este caso la solución real esβ^LSi>0 βi≥0
Caso 2 : . Esto implica que debemos tener y entonces Al diferenciar con respecto a y establecer un valor igual a cero, obtenemos . Pero, una vez más, para garantizar que esto sea factible, necesitamos , que se logra tomandoβ^LSi≤0 βi≤0
En ambos casos, obtenemos la forma deseada, y así terminamos.
Observaciones finales
Tenga en cuenta que a medida que aumenta , cada uno de losnecesariamente disminuye, por lo tanto, también lo hace . Cuando , recuperamos las soluciones OLS y, para, obtenemos para todo .γ |β^lassoi| ∥β^lasso∥1 γ=0 γ>maxi|β^LSi| β^lassoi=0 i
fuente
Suponemos que el covariables , las columnas de , también están estandarizados para que . Esto es solo por conveniencia más adelante: sin él, la notación se vuelve más pesada ya que es solo diagonal. Además suponga que . Esta es una suposición necesaria para que el resultado se mantenga. Defina el estimador de mínimos cuadrados . Luego, el estimador de lazo (forma lagrangiana del)xj X∈Rn×p XTX=I XTX n≥p β^OLS=argminβ∥y−Xβ∥22
Esta es una derivación que omite la derivación detallada del operador proximal que Cardinal calcula, pero, espero, aclara los pasos principales que hacen posible una forma cerrada.
fuente