Su pregunta aborda el problema de recuperación "exacto" (queremos recuperar un k-sparse x exactamente dado Ax ). En lo siguiente, sin embargo, me centraré en la versión "robusta", donde x es un vector arbitrario y el objetivo del algoritmo de recuperación es encontrar una aproximación k dispersa x′ a x (esta distinción realmente importa para parte de la discusión a continuación ) Formalmente desea resolver el siguiente problema ( P1 ):
Diseño A tal que para cualquier x uno pueda recuperar x′ donde
∥x−x′∥L≤
x " kminx"C∥x−x"∥R , donde extiende sobre todos los vectores dispersos.x"k
Aquí, y denota la norma izquierda y derecha, y es el "factor de aproximación". Hay varias opciones posibles para y . Para concretar, uno puede pensar que ambos son iguales a o ; Sin embargo, puede volverse más desordenado. ‖ ⋅ ‖ R C ‖ ⋅ ‖ L ‖ ⋅ ‖ R ℓ 2 ℓ 1∥⋅∥L∥⋅∥RC∥⋅∥L∥⋅∥Rℓ2ℓ1
Ahora a algunos de los análogos y generalizaciones.
Base arbitraria. Primero, observe que cualquier esquema que satisfaga la definición anterior puede usarse para resolver un problema más general, donde la señal recuperada es escasa en una base arbitraria (digamos, wavelet de Fourier), no solo el estándar. Sea la matriz base. Formalmente, un vector es disperso en base si donde es disperso. Ahora podemos considerar el problema generalizado ( ): B u k B u = B v v k P Bx′BukBu=BvvkPB
Diseñe tal manera que dado , uno pueda recuperar whereA B x x ′ ‖ x - x ′ ‖ L ≤ABABxx′∥ x - x′∥L≤
x " k Bminx "do∥x−x"∥R , donde rangos de más de todos los vectores que son opción -sparse en .x"kB
Se puede reducir este problema al problema anterior cambiando la base, es decir, utilizando una matriz de medición . Si tenemos una solución para en la norma (es decir, las normas izquierda y derecha iguales a ), también obtenemos una solución para en la norma . Si usa otras normas, resolvemos en aquellas normas modificadas cambiando la base.A B = A B - 1 P 1 ℓ 2 ℓ 2 P B ℓ 2 P 1 P BP1AB=AB−1P1ℓ2ℓ2PBℓ2P1PB
Una advertencia en lo anterior es que en el enfoque anterior, necesitamos conocer la matriz para definir . Tal vez resulte sorprendente, si permitimos que la aleatorización ( no es fijo, sino que elige al azar), es posible elegir de la una distribución fija que es independiente de . Esta es la llamada propiedad de universalidad .A B A B A B BBABABABB
Diccionarios La siguiente generalización se puede obtener eliminando el requisito de que es una base. En cambio, podemos permitir que tenga más filas que columnas. Dichas matrices se denominan diccionarios (sobrecompletos). Un ejemplo popular es la matriz de identidad en la parte superior de la matriz de Fourier. Otro ejemplo es una matriz donde las filas son los vectores característicos de todos los intervalos en {1 ... n}; en este caso, el conjunto { } contiene todos los " -histogramas", es decir, funciones constantes por partes sobre {1 ... n} con como máximo piezas.B B u : u es k escaso k kBBBu:u is k-sparsekk
Hasta donde sé, no existe una teoría general para tales diccionarios arbitrarios, aunque ha habido una buena cantidad de trabajo sobre este tema. Véase, por ejemplo,
Candes-Eldar-Needell'10 o
Donoho-Elad-Temlyakov, IEEE Transactions on Information Theory, 2004 .
El bosquejo de histogramas se investigó ampliamente en la transmisión y la literatura de bases de datos, por ejemplo,
Gilbert-Guha-Indyk-Kotidis-Muthukrishnan-Strauss, STOC 2002 o
Thaper-Guha-Indyk-Koudas, SIGMOD 2002 .
Modelos. (también mencionado por Arnab). Una generalización diferente es introducir restricciones en los patrones de dispersión. Sea un subconjunto de -subconjuntos de {1 ... n}. Decimos que es opción -sparse si el apoyo de está incluido en un elemento de . Ahora podemos plantear el problema ( ):k u M u M P MMkuMuMPM
Diseño tal que para cualquier uno pueda recuperar dondex x ′ ‖ x - x ′ ‖ L ≤Axx′∥x−x′∥L≤
minx"C∥x−x"∥R , donde extiende sobre todos los vectores dispersos.x"M
Por ejemplo, los elementos de podrían tener la forma , donde cada corresponde a un "subbloque" de {1 ... n} de cierta longitud , es decir, es de la forma {jb + 1 ... (j + 1) b} para algunos . Este es el llamado modelo de "dispersión de bloques". MI1∪…∪IkIibIij
Los beneficios de los modelos es que se puede ahorrar en el número de mediciones, en comparación con el enfoque genérico de espacialidad. Esto se debe a que el espacio de las señales dispersas es más pequeño que el espacio de todas las señales dispersas, por lo que la matriz necesita preservar menos información. Para obtener más información, consulte
Baraniuk-Cevher-Duarte-Hegde, IEEE Transactions on Information Theory, 2010 o
Eldar-Mishali, IEEE Transactions on Information Theory, 2009 .kMkA
Espero que esto ayude.
Supongo que, en el nivel de generalidad en el que he planteado la pregunta, el documento "Compresión de fuentes muestreables" de Trevisan, Vadhan y Zuckerman (2004) también califica como una posible respuesta. Muestran que, en muchos casos, si la fuente de las cadenas de entrada es de baja complejidad (p. Ej., Puede ser muestreada por máquinas de espacio de registro), se puede comprimir y descomprimir, en tiempo polinómico, para alargar una constante aditiva lejos de la entropía de la fuente.
Sin embargo, no sé realmente si la detección comprimida se puede incluir en una teoría más amplia de la compresión.
fuente
Un análogo de la detección compresiva es el aprendizaje automático cuando intenta estimar un vector de peso dimensional alto (p. Ej., En clasificación / regresión) a partir de un tamaño de muestra muy pequeño. Para tratar con sistemas subdeterminados de ecuaciones lineales en tales configuraciones, uno típicamente aplica la dispersión (a través de la penalización l0 o l1) en el vector de peso que se está aprendiendo. Para ver la conexión, considere el siguiente problema de clasificación / regresión del aprendizaje automático:
Representa los N ejemplos de dimensiones D cada uno (D >> N) como una matriz NxD X. Representa las respuestas N (una para cada ejemplo) como un vector Nx1 Y. El objetivo es resolver un vector Dta theta a través de la siguiente ecuación : Y = X * theta
Ahora aquí está la analogía de este problema con la detección de compresión (CS): desea estimar / medir theta que es un vector D dimensional (similar a una "señal" desconocida en CS). Para estimar esto, utiliza una matriz X (similar a la matriz de diseño en CS) y N 1-D mediciones Y (similar a la señal comprimida en CS, ya que D >> N).
fuente
Ver: http://www.damtp.cam.ac.uk/user/na/people/Anders/Inf_CS43.pdf
fuente