Regularización inductora de la dispersión para matrices estocásticas

10

Es bien sabido (por ejemplo, en el campo de la detección de compresión) que la norma es "inductora de la dispersión", en el sentido de que si minimizamos lo funcional (para la matriz fija y el vector ) para lo suficientemente grande , es probable que muchas opciones de , y tengan muchas entradas exactamente cero en el resultante . $L_1$ $A$ $\vec{b}$

f_{A, \vec{b}} (\vec{x}) = ‖ A \vec{x} - \vec{b} ‖_{2}^{2} + λ ‖ \vec{x} ‖_{1}

$f_{A,\vec{b}}(\vec{x})=\|A\vec{x}-\vec{b}\|_2^2+\lambda\|\vec{x}\|_1$

λ > 0

$\lambda>0$

A

$A$

\vec{b}

$\vec{b}$

λ

$\lambda$

\vec{x}

$\vec{x}$

Pero si minimizamos $f_{A,\vec{b}}$ sujeto a la condición de que las entradas de $\vec{x}$ son positivas y suman $1$ , entonces el término $L_1$ no tiene ningún efecto (porque $\|\vec{x}\|_1=1$ por fiat). ¿Existe un regularizador de tipo análogo $L_1$ que funcione en este caso para alentar que el resultante $\vec{x}$ sea escaso?

regression matrix normalization regularization sparse Justin Solomon
fuente

¿Podría explicar "entonces el término

L_{1}

$L_1$ no tiene ningún efecto (porque

| | x | |_{1} = 1

$||x||_1 = 1$ por fiat)"?

Cam.Davidson.Pilon

2

@ Cam.Davidson.Pilon:

x_{i} \geq 0

$x_i \geq 0$ y

\sum_{i} x_{i} = 1

$\sum_i x_i = 1$ implica

‖ x ‖_{1} = 1

$\|x\|_1 = 1$ . :)

cardenal

1

Justin: Algunos detalles más podrían dar una mejor oportunidad de obtener una respuesta útil. Aquí hay algunas preguntas que surgen inmediatamente al leer su descripción: ( 1 ) ¿Dónde está la "matriz estocástica" en todo esto? Parece que solo describe una situación que involucra un vector estocástico . Estos podrían ser solo filas individuales de su matriz estocástica, u otra estructura podría hacerse evidente una vez que haya más detalles. ( 2 ) ¿Desea que las probabilidades en sí mismas sean escasas, o tal vez, escasas en alguna base apropiada? Si el primero, ¿por qué? (¿Es esto una caminata aleatoria en un gráfico ponderado (escaso)?)

cardenal

¿Por qué requiere que las entradas de sean positivas ? ¿Deberías estar exigiendo que no sean negativos ? Además, ¿ha considerado volver a parametrizar para eliminar la restricción (suponiendo que quiere decir no negativo)? En otras palabras, intente

\vec{x}

$\vec x$

x_{i} = \frac{\exp (w_{i})}{\sum_{j} \exp (w_{j})}

$x_i = \frac{\exp(w_i)}{\sum_j \exp(w_j)}$

jrennie

1

@jrennie: Dado el contexto, por positivo Justin seguramente significaba no negativo .

cardenal

2

Un método general para crear soluciones dispersas es a través de la estimación MAP con una media normal cero antes con una varianza desconocida.

p (x_{i} | σ_{i}^{2}) \sim N (0, σ_{i}^{2})

$p(x_i|\sigma_i^2)\sim N(0,\sigma_i^2)$

Si luego asigna un previo a que tiene un modo en cero, entonces el modo posterior generalmente es escaso. El surge de este enfoque al tomar una distribución de mezcla exponencial. $\sigma_i^2$ $L_1$

p (σ_{i}^{2} | λ) \sim E x p o (\frac{λ^{2}}{2})

$p(\sigma_i^2|\lambda)\sim Expo\left(\frac{\lambda^2}{2}\right)$

Entonces obtienes

\log [p (x_{i} | λ)] = - λ | x_{i} | + \log [\frac{λ}{2}]

$\log[p(x_i|\lambda)]=-\lambda | x_i|+\log\left[\frac{\lambda}{2}\right]$

Algunas alternativas son el doble pareto generalizado, medio cauchy, beta invertido. En cierto sentido, estos son mejores que el lazo porque no reducen los valores grandes. De hecho, estoy bastante seguro de que el doble pareto generalizado se puede escribir como una mezcla de exponenciales. Es decir, escribimos y luego colocamos una gamma anterior . Obtenemos: $\lambda=\lambda_i$ $p(\lambda_i|\alpha\beta)$

p (x_{i} | α β) = \frac{α}{2 β} {(1 + \frac{| x_{i} |}{β})}^{- (α + 1)}

$p(x_i|\alpha\beta)=\frac{\alpha}{2\beta}\left(1+\frac{|x_i|}{\beta}\right)^{-(\alpha+1)}$

Tenga en cuenta que he incluido constantes de normalización, ya que ayudan a elegir buenos parámetros globales. Ahora, si aplicamos la restricción de rango, entonces tenemos un problema más complicado, ya que necesitamos renormalizar sobre el simplex.

Otra característica genérica de las penalizaciones por inducción de la dispersión es que no son diferenciables en cero. Por lo general, esto se debe a que los límites izquierdo y derecho son de signo opuesto.

Esto se basa en el brillante trabajo de Nicolas Polson y James Scott sobre las representaciones de mezcla de medias de varianza que utilizan para desarrollar TIRLS, una extensión masiva de mínimos cuadrados a una clase muy grande de combinaciones de penalización por pérdida.

Como alternativa, puede usar un previo que se define en el simplex, pero tiene modos en las distribuciones marginales en cero. Un ejemplo es la distribución de dirichlet con todos los parámetros entre 0 y 1. La penalización implícita se vería así:

- \sum_{i = 1}^{n - 1} (a_{i} - 1) \log (x_{i}) - (a_{n} - 1) \log (1 - \sum_{i = 1}^{n - 1} x_{i})

$-\sum_{i=1}^{n-1}(a_i-1)\log(x_i) - (a_n-1)\log(1-\sum_{i=1}^{n-1}x_i)$

Donde . Sin embargo, debe tener cuidado al optimizar numéricamente ya que la penalización tiene singularidades. Un proceso de estimación más robusto es utilizar la media posterior. Aunque pierda la escasez exacta, obtendrá muchos medios posteriores que están cerca de cero.p $0<a_i<1$

probabilidadislogica
fuente

Esta parece una idea muy interesante, ¡aunque no estamos completamente equipados para entender los detalles! Si entiendo correctamente, la idea es que el anterior proviene de una suposición de que las variables siguen una distribución exponencial de aproximadamente 0. Por lo tanto, necesitamos una distribución centrada en 0 que funcione mejor para nuestras variables. Pero, no hay un ganador claro, ¿verdad? ¿Hay distribuciones sobre "variables positivas que suman 1"? ¡Gracias por tu ayuda!

L_{1}

$L_1$

Justin Solomon

Para obtener la dispersión, necesita una distribución con un modo en cero. Y la distribución de dirichlet está sobre el simplex, que es precisamente esas distribuciones que suman 1. Otra clase general es logistic-normal o logistic t donde tiene una distribución normal / t para

\log [\frac{x_{i}}{x_{n}}]

$\log\left[\frac{x_i}{x_n}\right]$

probabilityislogic

¡Ah, el Dirichlet parece bastante interesante porque está en el simplex que nos interesa, como usted menciona! Parece que los otros dos que mencionas podrían introducir cierta asimetría en , ¿verdad? ¡Mi colaborador y yo trabajaremos a través de la función de energía que implica Dirichlet mañana e informaremos! Muchas gracias por su ayuda al paciente hasta el momento. Esto está lejos de nuestro campo habitual, pero si podemos resolverlo, ¡los resultados pueden proporcionar un paso considerable en el procesamiento de la geometría! [¡Y, por supuesto, le daremos el debido crédito!]

x_{n}

$x_n$

Justin Solomon

1

Dos opciones:

Use una penalización en . El inconveniente obvio es que esto no es convexo y, por lo tanto, es difícil de optimizar. $L_0$ $\vec x$
Reparameterize, y use una penalización en el nuevo vector de parámetros (natural),. Esto alentará que los eventos sean igualmente probables a menos que haya una buena razón para que no lo sean. $x_i = \frac{\exp(w_i)}{\sum_j \exp(w_j)}$ $\|\vec w\|$

jrennie
fuente

¿Puede explicar cómo su reparametrización fomenta la escasez? Más bien parece garantizar todo lo contrario.

cardenal

Fomenta la dispersión en que corresponde a alentar a diferentes entradas de para que tengan el mismo valor.

\vec{w}

$\vec w$

\vec{x}

$\vec x$

jrennie

Sí, lo entiendo. Pero, esos valores no serán cero. Si tomamos el OP literalmente, esto no ayudará y realmente "duele" (en cierto sentido). Pero, es posible que el OP esté interesado en la escasez con respecto a alguna otra base, en cuyo caso, esta sería una de ellas. :)

cardenal

Es por eso que proporcioné dos opciones en mi respuesta: creo que se requeriría una penalización no convexa para alentar los ceros en . Como notó, Justin probablemente no significa literalmente lo que dijo.

\vec{x}

$\vec x$

jrennie

Sí, desafortunadamente necesitamos escasez en la base de identidad. Entonces, en este caso, tantas como sea posible para igualar .

w_{i}

$w_i$

- \infty

$-\infty$

Justin Solomon

1

La premisa de la pregunta es solo parcialmente correcta. Si bien es cierto que la L_1 es solo una constante bajo la restricción, el problema de optimización de la restricción podría muy bien tener una solución dispersa. $L_1$

Sin embargo, la solución no se ve afectada por la elección de , por lo que hay una solución escasa o no. Otra pregunta es cómo encontrar realmente la solución. Por supuesto, se puede usar un optimizador cuadrático estándar bajo restricciones lineales, pero los algoritmos de descenso de coordenadas populares no se pueden usar de forma inmediata. $\lambda$

Una sugerencia podría ser optimizar solo bajo una contracción de positividad, para diferentes 's, y luego renormalizar la solución para tener -norm 1. Creo que un algoritmo de descenso coordinado debería ser fácilmente modificable para calcular la solución bajo una positividad restricción. $\lambda$ $L_1$

NRH
fuente

0

Puedo pensar en tres métodos.

Método bayesiano: introducción de una distribución previa de media cero y uso de probabilidad de tipo II para estimar los parámetros e hiperparámetros.
Utilice como regularización en su lugar. Sin embargo, esto no es diferenciable. Puede usar una norma de alto orden para aproximarla. $\Vert\cdot\Vert_{\infty}$
Use . $-\sum_{i=1}\log x_i$

De hecho, el primer y el tercer método son los mismos.

Han Zhang
fuente

Regularización inductora de la dispersión para matrices estocásticas

Respuestas: