Es bien sabido (por ejemplo, en el campo de la detección de compresión) que la norma es "inductora de la dispersión", en el sentido de que si minimizamos lo funcional (para la matriz fija y el vector ) para lo suficientemente grande \ lambda> 0 , es probable que muchas opciones de A , \ vec {b} y \ lambda tengan muchas entradas exactamente cero en el \ vec {x} resultante .
Pero si minimizamos sujeto a la condición de que las entradas de son positivas y suman , entonces el término no tiene ningún efecto (porque por fiat). ¿Existe un regularizador de tipo L_1 análogo que funcione en este caso para alentar que el \ vec {x} resultante sea escaso?
regression
matrix
normalization
regularization
sparse
Justin Solomon
fuente
fuente
Respuestas:
Un método general para crear soluciones dispersas es a través de la estimación MAP con una media normal cero antes con una varianza desconocida.
Si luego asigna un previo a que tiene un modo en cero, entonces el modo posterior generalmente es escaso. El surge de este enfoque al tomar una distribución de mezcla exponencial.σ2i L1
Entonces obtienes
Algunas alternativas son el doble pareto generalizado, medio cauchy, beta invertido. En cierto sentido, estos son mejores que el lazo porque no reducen los valores grandes. De hecho, estoy bastante seguro de que el doble pareto generalizado se puede escribir como una mezcla de exponenciales. Es decir, escribimos y luego colocamos una gamma anterior . Obtenemos:λ=λi p(λi|αβ)
Tenga en cuenta que he incluido constantes de normalización, ya que ayudan a elegir buenos parámetros globales. Ahora, si aplicamos la restricción de rango, entonces tenemos un problema más complicado, ya que necesitamos renormalizar sobre el simplex.
Otra característica genérica de las penalizaciones por inducción de la dispersión es que no son diferenciables en cero. Por lo general, esto se debe a que los límites izquierdo y derecho son de signo opuesto.
Esto se basa en el brillante trabajo de Nicolas Polson y James Scott sobre las representaciones de mezcla de medias de varianza que utilizan para desarrollar TIRLS, una extensión masiva de mínimos cuadrados a una clase muy grande de combinaciones de penalización por pérdida.
Como alternativa, puede usar un previo que se define en el simplex, pero tiene modos en las distribuciones marginales en cero. Un ejemplo es la distribución de dirichlet con todos los parámetros entre 0 y 1. La penalización implícita se vería así:
Donde . Sin embargo, debe tener cuidado al optimizar numéricamente ya que la penalización tiene singularidades. Un proceso de estimación más robusto es utilizar la media posterior. Aunque pierda la escasez exacta, obtendrá muchos medios posteriores que están cerca de cero.p0<ai<1
fuente
Dos opciones:
fuente
La premisa de la pregunta es solo parcialmente correcta. Si bien es cierto que la L_1 es solo una constante bajo la restricción, el problema de optimización de la restricción podría muy bien tener una solución dispersa.L1
Sin embargo, la solución no se ve afectada por la elección de , por lo que hay una solución escasa o no. Otra pregunta es cómo encontrar realmente la solución. Por supuesto, se puede usar un optimizador cuadrático estándar bajo restricciones lineales, pero los algoritmos de descenso de coordenadas populares no se pueden usar de forma inmediata.λ
Una sugerencia podría ser optimizar solo bajo una contracción de positividad, para diferentes 's, y luego renormalizar la solución para tener -norm 1. Creo que un algoritmo de descenso coordinado debería ser fácilmente modificable para calcular la solución bajo una positividad restricción.λ L1
fuente
Puedo pensar en tres métodos.
Método bayesiano: introducción de una distribución previa de media cero y uso de probabilidad de tipo II para estimar los parámetros e hiperparámetros.
Utilice como regularización en su lugar. Sin embargo, esto no es diferenciable. Puede usar una norma de alto orden para aproximarla.∥⋅∥∞
Use .−∑i=1logxi
De hecho, el primer y el tercer método son los mismos.
fuente