Programación Cuadrática y Lazo

Estoy tratando de realizar una regresión de lazo, que tiene la siguiente forma:

Minimice in $w$ $(Y - Xw)'(Y - Xw) + \lambda \;|w|_1$

Dado un , me aconsejaron encontrar la óptima con la ayuda de la programación cuadrática, que toma la siguiente forma: $\lambda$ $w$

Minimizar en $x$ , sujeto a $\frac{1}{2} x'Qx + c'x$ $Ax \le b.$

Ahora me doy cuenta de que el término debe transformarse en el término de restricción , que es bastante sencillo. Sin embargo, de alguna manera no veo cómo podría transferir el primer término de la primera ecuación al primer término de la segunda. No pude encontrar mucho al respecto en la red, así que decidí preguntar aquí. $\lambda$ $Ax \le b$

regression lasso quadratic-form espurra
fuente

Respuestas:

Teniendo en cuenta que estamos trabajando con como la variable ' ' en la forma estándar, expanda y recopile términos en $w$ $x$ $(Y - Xw)'(Y - Xw)$ y en y , y constantes. $w'\, [\,_{^{^\text{something}}}]\,w$ $w'$ $w$

Explica por qué puedes ignorar las constantes.

Explicar por qué se puede combinar el y términos. $w'$ $w$

Como BananaCode ya ha descubierto algunos guiones a lo largo del camino, puede escribir y o más simplemente, puede escribir y (ya que y tienen el mismo argumento para cualquier ). $Q=2X'X$ $c=-2X'Y$ $Q=X'X$ $c=-X'Y$ $f(x)$ $kf(x)$ $k>0$

Glen_b -Reinstate a Monica
fuente

Las constantes se pueden ignorar, porque si x_ es el mínimo para f (x), entonces x_ + c es el mínimo de f (x) + c, por lo tanto, podemos ignorar la constante c. Editaré mi pregunta para mostrar dónde me quedé atrapado.

Spurra

BananaCode su explicación tiene varios defectos. Si con "es el mínimo para

" quiere decir "es el argumento en el que se minimiza

", usted dice algo así como "

es el

". Pero tu conclusión allí es incorrecta. Si agrega

, no agrega

al argmin.

f (x)

$f(x)$

f (x)

$f(x)$

x^{*}

$x^*$

argmin

$\text{argmin}$

f

$f$

c

$c$

f

$f$

c

$c$

Glen_b -Reinstate Monica

Mira donde escribí

en mi respuesta? ¿Qué eslo quetienes ahora entre la

y la

al final de tu pregunta?

w^{'} [something] w

$w'\, [\,\text{something}]\,w$

w^{'}

$w'$

w

$w$

Glen_b -Reinstate Monica

Sí, quise decir que

es el

. ¿Podría dar un ejemplo donde mi conclusión es incorrecta? La

es la matriz

que estoy tratando de formar. Si expando

obtengo

x *

$x*$

a r g m i n

$argmin$

f

$f$

[s o m e t h i n g]

$[something]$

Q

$Q$

w^{'} (X^{'} X w - X^{'} Y)

$w'(X'Xw - X'Y)$

. La primera parte representaría la forma de la

de la matriz, sin embargo no puede deshacerse de la segunda término

w^{'} X^{'} X w - w^{'} X^{'} Y

$w'X'Xw - w'X'Y$

Q

$Q$

- w^{'} X^{'} Y

$-w'X'Y$

Spurra

@ AD.Net Las restricciones se tratan principalmente en la otra respuesta.

Glen_b -Reinstala a Monica

Quería agregar cómo resolver transformando las restricciones en una forma utilizable para la programación cuadrática, ya que no es tan sencillo como pensaba. No es posible encontrar una matriz real tal que . $\sum |w_i| \le s$ $A$ $Aw \le s \leftrightarrow \sum |w_i| \le s$

El enfoque que utilicé fue dividir los elementos del vector en y , de modo que . Si , tienes y , de lo contrario tienes y $w_i$ $w$ $w_i^+$ $w_i^-$ $w_i = w_i^+ - w_i^-$ $w_i \ge 0$ $w_i^+ = w_i$ $w_i^- = 0$ $w_i^- = |w_i|$ . O en términos más matemáticos, $w_i^+ = 0$ y $w_i^+ = \frac{|w_i| + w_i}{2}$ Tanto como son números no negativos. La idea detrás de dividir los números es que ahora tienes , eliminando efectivamente los valores absolutos. $w_i^- = \frac{|w_i| - w_i}{2}.$ $w_i^-$ $w_i^+$ $|w_i| = w_i^+ + w_i^-$

$\frac{1}{2}(w^+ - w^-)^TQ(w^+ - w^-) + c^T(w^+ - w^-)$ $w_i^+ + w_i^- \le s, \\ w_i^+,w_i^- \ge 0$

$Q$ $c$

Esto debe transformarse en una forma utilizable, es decir, necesitamos un vector. Esto se hace de la siguiente manera:

$\frac{1}{2} \bigg[ \begin{array}{c} w^+ \\ w^- \end{array} \bigg]^T \bigg[ \begin{array}{cc} Q & -Q \\ -Q & Q \end{array} \bigg] \bigg[ \begin{array}{c} w^+ \\ w^- \end{array}\bigg] + \big[ \begin{array}{cc} c^T & -c^T \end{array} \big] \bigg[ \begin{array}{c} w^+ \\ w^- \end{array}\bigg]$

sujeto a

$\bigg[ \begin{array}{cc} I_D & I_D \\ -I_{2D} \end{array} \bigg]\bigg[ \begin{array}{c} w^+ \\ w^- \end{array}\bigg] \le \bigg[ \begin{array}{c} s_D \\ 0_{2D} \end{array}\bigg]$

$I_D$ $D$ $s_D$ $D$ $s$ $0_D$ $2*D$ $|w_i| = w_i^+ + w_i^- \le s$ $w_i^+,w_i^- \ge 0$ $w^+$ $w^-$ $s$ $s$ $w = w^+ - w^-$

Fuente y lecturas adicionales: resolución de problemas de programación cuadrática con restricciones lineales que contienen valores absolutos

espurra
fuente

2 D

$2D$

(w^{+}, w^{-})

$(w^+, w^-)$

w^{+}

$w^+$

w^{-}

$w^-$

w

$w$

0

$0$

La matriz y el vector en la expresión final pueden ser más simples y, de hecho, más correctos. En lugar de [Id Id] [w + w−] '≤ Sd, podría poner simplemente [1 1 .... 1] [w + w-]' ≤ s. Esto es literalmente equivalente a ∑ | wi | = ∑ (wi + + wi−) ≤ s.

Marko