Relación de detección comprimida con la regularización L1

8

Entiendo que la detección comprimida encuentra la solución más escasa para donde , , y , .

y=Ax
xRDARk×DyRkk<<D

De esta manera podemos reconstruir (el original) usando (la compresión), razonablemente rápido. Decimos que es la solución más escasa. La escasez puede entenderse como la l_0 de los vectores.xyxl0

También sabemos que el -norm (que se puede resolver mediante programación lineal) es una buena aproximación al -norm (que es NP-hard para vectores grandes). Por lo tanto, es también la solución más paral1l0xl1Ax=y

He leído que la detección comprimida es similar a la regresión con una penalización de lazo ( ). También he visto interpretaciones geométricas de esto, pero no he hecho la conexión matemáticamente.l1

Además de minimizar la norma , ¿cuál es la relación (matemáticamente) entre la compresión y el lazo?l1

ilanman
fuente
relacionado: quora.com/…
Charlie Parker
Según tengo entendido, la detección comprimida es el campo que estudia la recuperación de señales dispersas y la regularización L1 es solo una formulación específica para resolverla aproximadamente.
Charlie Parker el

Respuestas:

6

Esencialmente no hay diferencia. Es solo la terminología del estadístico frente a la terminología del ingeniero eléctrico.

La detección comprimida (más precisamente, la eliminación de ruido de búsqueda de base [1]) es este problema:

arg minx12Axb+λx1

mientras que el lazo [2] es este problema

arg minβ12yXβ+λβ1

En la medida en que hay una diferencia, es que en las aplicaciones de detección comprimida, usted (el ingeniero) puede elegir para "comportarse bien" mientras que, para el lazo, usted (el estadístico) no puede elegir y tiene que elegir lidiar con los datos que sean (y rara vez son "agradables" ...). En consecuencia, gran parte de la literatura subsiguiente de Compressed Sensing se ha centrado en elegir para que sea lo más "eficiente" posible, mientras que gran parte de la literatura estadística posterior se ha centrado en las mejoras del lazo que todavía funcionan con que "rompen" el lazo.AXAX

[1] SS Chen, DL Donoho, MA Saunders. "Descomposición atómica por búsqueda de bases". SIAM Journal on Scientific Computing 20 (1), p.33-61, 1998. https://doi.org/10.1137/S1064827596304010

[2] R. Tibshirani "Reducción y selección de la regresión a través del lazo". Revista de la Real Sociedad Estadística: Serie B 58 (1), p.267–88, 1996. JSTOR 2346178.

mweylandt
fuente
pero generalmente la detección comprimida se expresa como tal que . ¿Es eso realmente equivalente al mínimo de si es así, ¿por qué y cómo cae lambda en la imagen original? minx1Ax=bAxb+λx1
Charlie Parker
La formulación que da (con la restricción de igualdad) es el "límite" en un sentido como . Surge cuando asume que no hay ruido en el sistema (por lo que a menudo se denomina "búsqueda de base" en lugar de "eliminación de ruido de búsqueda de base"). λ0
mweylandt
Algo que me confunde es que combiné métodos de búsqueda donde los algoritmos codiciosos (aproximadamente) resuelven . Sin embargo, pensé en algoritmos de umbral suaves donde los solucionadores exactos de la formulación de relajación convexa . Por lo tanto, si esto es cierto, ¿conducirían a la misma solución? es decir, parece que Lasso y OM resuelven el mismo problema pero con una formulación muy diferente. Cualquier algoritmo para LASSO produce la misma solución porque su colocación convexa si OM es un algoritmo codicioso para L0, entonces supongo que son muy diferentes. ¿Es esto correcto? Xwy2+λw0Xwy2+λw1
Charlie Parker el
Creo que vale la pena hacer esta pregunta en otra pregunta. En general, no, las soluciones L1 (lazo) y L0 (mejores subconjuntos) son diferentes. Pero hay circunstancias especiales bien estudiadas donde las versiones L0 y L1 del problema de búsqueda de base (no el ruido de búsqueda de base) dan la misma solución.
mweylandt el
1
Aquí está la otra pregunta: stats.stackexchange.com/questions/337113/…
Charlie Parker el