¿Por qué mi derivación de una solución de lazo cerrado es incorrecta?

28

βlasso=argminβyXβ22+αβ1
βjlasso=sgn(βjLS)(|βjLS|α)+
X

Sin embargo, no entiendo por qué no hay una solución de forma cerrada en general. Usando subdiferenciales obtuve lo siguiente.

( X es una matriz n×p )

f(β)=yXβ22+αβ1
=i=1n(yiXiβ)2+αj=1p|βj|
( Xi es la fila i-ésima de X ) f
=yo=1norteyyo2-2yo=1norteyyoXyoβ+yo=1norteβTXyoTXyoβ+αj=1pagsEl |βjEl |
={ - 2 n i = 1 y i X i j + 2 n i = 1 X 2 i j β j + α  para  β j > 0 - 2 n i = 1 y i X i j + 2 n i
Fβj=-2yo=1norteyyoXyoj+2yo=1norteXyoj2βj+βj(αEl |βjEl |)
={-2yo=1norteyyoXyoj+2yo=1norteXyoj2βj+α para βj>0 0-2yo=1norteyyoXyoj+2yo=1norteXyoj2βj-α para βj<0 0[-2yo=1norteyyoXyoj-α,-2yo=1norteyyoXyoj+α] para βj=0 0
Con Fβj=0 0 obtenemos

βj={(2(yo=1norteyyoXyoj)-α)/ /2yo=1norteXyoj2para yo=1norteyyoXyoj>α(2(yo=1norteyyoXyoj)+α)/ /2yo=1norteXyoj2para yo=1norteyyoXyoj<-α0 0 para yo=1norteyyoXyoj[-α,α]

¿Alguien ve dónde me equivoqué?

Responder:

Si escribimos el problema en términos de matrices, podemos ver muy fácilmente por qué una solución de forma cerrada solo existe en el caso ortonormal con XTX=yo :

f(β)=yXβ22+αβ1
=yTy2βTXTy+βTXTXβ+αβ1
f(β)=2XTy+2XTXβ+(α|β1)
(He dado muchos pasos a la vez aquí. Sin embargo, hasta este punto, esto es completamente análogo a la derivación de la solución de mínimos cuadrados. Por lo tanto, debería poder encontrar los pasos faltantes allí.)
fβj=2XjTy+2(XTX)jβ+βj(α|βj|)

Con fβj=0 obtenemos

2(XTX)jβ=2XjTyβj(α|βj|)
2(XTX)jjβj=2XjTyβj(α|βj|)2i=1,ijp(XTX)jiβi

Ahora podemos ver que nuestra solución para un depende de todos los demás por lo que no está claro cómo proceder desde aquí. Si es ortonormal, tenemos por lo que ciertamente existe una solución de forma cerrada en este caso.βjβijX2(XTX)jβ=2(I)jβ=2βj

Gracias a Guðmundur Einarsson por su respuesta, sobre la cual elaboré aquí. Espero que esta vez sea correcto :-)

Norbert
fuente
3
¡Bienvenido a CrossValidated, y felicidades por una muy buena primera publicación!
S. Kolassa - Reincorporar a Mónica

Respuestas:

16

Esto normalmente se hace con la regresión de menor ángulo, puede encontrar el documento aquí .

Perdón por mi confusión al principio, voy a intentarlo de nuevo.

Entonces, después de la expansión de tu función obtienesf(β)

f(β)=i=1nyi22i=1nyiXiβ+i=1nβTXiTXiβ+αj=1p|βj|

Luego calcula la derivada parcial con respecto a . Mi preocupación está en su cálculo de la derivada parcial del último término antes de la norma 1, es decir, el término cuadrático. Vamos a examinarlo más a fondo. Tenemos que:βj

Xiβ=βTXiT=(β1Xi1+β2Xi2++βpXip)
Así que esencialmente puede reescribir su término cuadrático como: Ahora podemos usar la regla de la cadena para calcular la derivada de este wrt :
i=1nβTXiTXiβ=i=1n(Xiβ)2
βj
βji=1n(Xiβ)2=i=1nβj(Xiβ)2=i=1n2(Xiβ)Xij

Entonces, su problema no se simplifica tan fácilmente, porque tiene todos los coeficientes presentes en cada ecuación.β

Esto no responde a su pregunta de por qué no hay una solución de forma cerrada del lazo, podría agregar algo más adelante.

Gumeo
fuente
1
Muchas gracias. De hecho, ahora puedo ver por qué no hay una solución de forma cerrada (ver mi edición).
Norbert
¡Dulce! Gran trabajo :)
Gumeo