KKT versus formulación sin restricciones de regresión de lazo

20

La regresión penalizada L1 (también conocida como lazo) se presenta en dos formulaciones. Deje que las dos funciones objetivas sean

Q1=12||YXβ||22Q2=12||YXβ||22+λ||β||1.
Entonces las dos formulaciones diferentes son
argminβQ1
sujeto a
||β||1t,
y, equivalente
argminβQ2.
Usando las condiciones de Karush-Kuhn-Tucker (KKT), es fácil ver cómo la condición de estacionariedad para la primera formulación es equivalente a tomar el gradiente de la segunda formulación y establecerlo igual a 0. Lo que no puedo encontrar ni averiguar , es cómo la condición de holgura complementaria para la primera formulación,λ(||β||1t)=0 , se garantiza que se cumple con la solución de la segunda formulación.
goodepic
fuente

Respuestas:

16

Las dos formulaciones son equivalentes en el sentido de que para cada valor de t en la primera formulación, existe un valor de λ para la segunda formulación de tal manera que las dos formulaciones tienen el mismo minimizador β .

Aquí está la justificación:

Considere la formulación del lazo: Deje que el minimizador seaβy deje queb=| El | β| El | 1. Mi afirmación es que si establecet=ben la primera formulación, entonces la solución de la primera formulación también seráβ. Aquí está la prueba:

f(β)=12||YXβ||22+λ||β||1
βb=||β||1t=bβ

ß | El | ß | El | 1<| El | β| El | 1=bf( β )<f(β*)β*β*

min12||YXβ||22 s.t.||β||1b
β^||β^||1<||β||1=bf(β^)<f(β)ββ

Como , la condición de holgura complementaria se cumple en el punto de solución .β t=bβ

Entonces, dada una formulación de lazo con , construyes una formulación restringida usando una igual al valor de la norma de la solución de lazo. Por el contrario, dada una formulación restringida con , encontrará una tal que la solución al lazo será igual a la solución de la formulación restringida.t l 1 t λλtl1tλ

(Si conoce subgraduados, puede encontrar este resolviendo la ecuación , dondeX T ( y - X β ) = λ z z | El | β | El | 1 )λXT(yXβ)=λzz||β||1)

elexhobby
fuente
1
Excelente. Una vez que vea la solución, siempre se sentirá tonto por no llegar allí. Supongo que quiere decir, al encontrar la contradicción, supongamos que encontramos un tal que ? | El | ß | El | 1<| El | β| El | 1=bβ^||β^||1<||β||1=b
goodepic 01 de
Considere la respuesta de flaggin como correcta
bdeonovic 01 de
2
¿Puedes explicar por quéf(β^)<f(β)
goofd el
Esto prueba que la solución a la primera formulación también debe tener una norma l1 de b. ¿Cómo prueba que las dos soluciones son realmente iguales?
broncoAbierto
1
Adicionalmente, el lazo no siempre tiene una solución única, por lo que no podemos hacer referencia a la minimizador. arxiv.org/pdf/1206.0313.pdf . Sin embargo, podríamos referirnos al conjunto de minimizadores y mostrar que algunos deben pertenecer a ese conjunto. β^β
broncoAbierto
3

Creo que la idea de Elexhobby para esta prueba es buena, pero no creo que sea completamente correcta.

Al demostrar que existe una solución para la primera formulación, , de modo queconduce a una contradicción, solo podemos asumir la necesidad de, no eso . β<β* β=β* β =β*β^β^<ββ^=ββ^=β

Sugiero, en cambio, que procedamos de la siguiente manera:

Por conveniencia, por y la primera y segunda formulación respectivamente. Supongamos que tiene una solución única, , con . Deje que tenga una solución, . Entonces, tenemos que(no puede ser mayor debido a la restricción) y, por lo tanto, . Si entonces no es la solución para , lo que contradice nuestras suposiciones. SiP 2 P 2 β β = b P 1P1P2P2ββ=bP1 ββ*f( β )f(β*)f( β )<f(β*)β*P2f( ββ^ββ^βf(β^)f(β)f(β^)<f(β)βP2β = β *f(β^)=f(β)entonces , ya que asumimos que la solución es única.β^=β

Sin embargo, puede darse el caso de que el lazo tenga múltiples soluciones. Según el lema 1 de arxiv.org/pdf/1206.0313.pdf , sabemos que todas estas soluciones tienen la misma -norm (y el mismo valor mínimo, por supuesto). Establecemos esa norma como la restricción para y procedemos.P 11P1

Vamos a denotar por el conjunto de soluciones a , con . Dejar que tiene una solución, . Entonces, tenemos que y por lo tanto . Si para algunos (y, por lo tanto, para todos ellos), entonces , lo que contradice nuestras suposiciones. Si para algunos entonces no es el conjunto de soluciones paraP 2β = b β S P 1 f ( β ) < f ( β ) β S S P 2 P 1 S P 1 P 2SP2β=b βSP1 βββSf( β )f(β)βSf( β )=f(β)βS βSβ^Sβ^ββSf(β^)f(β)βSf(β^)=f(β)βSβ^Sf(β^)<f(β)βSSP2 . Por lo tanto, cada solución a está en , es decir, cualquier solución a también es una solución a . Quedaría por demostrar que lo complementario se mantiene también.P1SP1P2

broncoAbierto
fuente