Rango de lambda en regresión neta elástica

9

Dada la regresión neta elástica

minb12||yXb||2+αλ||b||22+(1α)λ||b||1

¿Cómo se puede elegir un rango apropiado de λ para la validación cruzada?

En el caso α=1 (regresión de cresta) la fórmula

dof=jsj2sj2+λ

se puede usar para dar grados de libertad equivalentes para cada lambda (donde sj son los valores singulares de X ), y los grados de libertad se pueden elegir en un rango sensible.

En el caso α=0 (lazo) sabemos que

λ>λmax=maxj|tytXtj|

resultará en que todo bj sea ​​cero, y λ se puede elegir en algún rango (0,λmax) .

¿Pero cómo manejar el caso mixto?

Chris Taylor
fuente

Respuestas:

4

Creo que deberías usar un rango de 0 para

λmax=11αλmax

Mi razonamiento proviene de extender el caso del lazo, y una derivación completa está debajo. El calificador es que no captura la restricción aportada por la regularización . Si descubro cómo solucionarlo (y decidir si realmente necesita reparación), volveré y lo editaré.dof2


Define el objetivo

f(b)=12yXb2+12γb2+δb1

Este es el objetivo que describió, pero con algunos parámetros sustituidos para mejorar la claridad.

Convencionalmente, solo puede ser una solución al problema de optimización si el gradiente en es cero. Sin embargo, el término no es uniforme, por lo que la condición es que encuentre en el subgradiente en .b=0minf(b)b=0b10b=0

El subgradiente de esf

f=XT(yXb)+γb+δb1

donde denota el subgradiente con respecto a . En , esto se convierte enbb=0

f|b=0=XTy+δ[1,1]d

donde es la dimensión de , y a es un cubo -dimensional. Entonces, para que el problema de optimización tenga una solución de , debe ser quedb[1,1]ddb=0

(XTy)iδ[1,1]

para cada componente . Esto es equivalente ai

δ>maxi|jyjXij|

cuál es la definición que diste para . Si ahora se intercambia, la fórmula de la parte superior de la publicación se cae.λmaxδ=(1α)λ

Andy Jones
fuente