Creo que deberías usar un rango de 0 para
λ′max=11−αλmax
Mi razonamiento proviene de extender el caso del lazo, y una derivación completa está debajo. El calificador es que no captura la restricción aportada por la regularización . Si descubro cómo solucionarlo (y decidir si realmente necesita reparación), volveré y lo editaré.dofℓ2
Define el objetivo
f(b)=12∥y−Xb∥2+12γ∥b∥2+δ∥b∥1
Este es el objetivo que describió, pero con algunos parámetros sustituidos para mejorar la claridad.
Convencionalmente, solo puede ser una solución al problema de optimización si el gradiente en es cero. Sin embargo, el término no es uniforme, por lo que la condición es que encuentre en el subgradiente en .b=0minf(b)b=0∥b∥10b=0
El subgradiente de esf
∂f=−XT(y−Xb)+γb+δ∂∥b∥1
donde denota el subgradiente con respecto a . En , esto se convierte en∂bb=0
∂f|b=0=−XTy+δ[−1,1]d
donde es la dimensión de , y a es un cubo -dimensional. Entonces, para que el problema de optimización tenga una solución de , debe ser quedb[−1,1]ddb=0
(XTy)i∈δ[−1,1]
para cada componente . Esto es equivalente ai
δ>maxi∣∣∣∣∑jyjXij∣∣∣∣
cuál es la definición que diste para . Si ahora se intercambia, la fórmula de la parte superior de la publicación se cae.λmaxδ=(1−α)λ