En el capítulo 9 del libro Reconocimiento de patrones y aprendizaje automático, hay esta parte sobre el modelo de mezcla gaussiana:
Para ser honesto, realmente no entiendo por qué esto crearía una singularidad. ¿Puede alguien explicarme esto? Lo siento, pero solo soy un estudiante universitario y un novato en el aprendizaje automático, por lo que mi pregunta puede sonar un poco tonta, pero por favor ayúdenme. Muchas gracias
gaussian-mixture
Dang Manh Truong
fuente
fuente
Respuestas:
Si queremos ajustar un Gaussiano a un único punto de datos usando la máxima probabilidad, obtendremos un Gaussiano muy puntiagudo que "colapsa" a ese punto. La varianza es cero cuando solo hay un punto, que en el caso gaussiano multivariado, conduce a una matriz de covarianza singular, por lo que se llama problema de singularidad.
Cuando la varianza llega a cero, la probabilidad del componente gaussiano (fórmula 9.15) llega al infinito y el modelo se sobreajusta. Esto no ocurre cuando ajustamos solo un Gaussiano a varios puntos ya que la varianza no puede ser cero. Pero puede suceder cuando tenemos una mezcla de gaussianos, como se ilustra en la misma página de PRML.
Actualización :
el libro sugiere dos métodos para abordar el problema de la singularidad, que son
1) restablecer la media y la varianza cuando se produce la singularidad
2) usando MAP en lugar de MLE agregando un previo.
fuente
También estoy un poco confundido por esta parte, y aquí está mi interpretación. Tome el caso 1D por simplicidad.
Cuando un único "colapso" gaussiano en un punto de datos , es decir, μ = x i , la probabilidad general se convierte en:xi μ=xi
Usted ve como , el término a la izquierda p ( x i ) → ∞ , que es como el caso patológico en GMM, pero el término a la derecha, que es la probabilidad de otros puntos de datos p ( x ∖ i ) , todavía contiene términos como e - ( x n - μ ) 2σ→0 p(xi)→∞ p(x∖i) que→0exponencialmente rápido comoσ→0, por lo que el efecto general sobre la probabilidad es que vaya al cero.e−(xn−μ)22σ2 →0 σ→0
El punto principal aquí es que cuando se ajusta un único gaussiano, todos los puntos de datos tienen que compartir un conjunto de parámetros , a diferencia del caso de la mezcla donde un componente puede "enfocarse" en un punto de datos sin penalizar la probabilidad general de datos .μ,σ
fuente
Esta respuesta dará una idea de lo que está sucediendo que conduce a una matriz de covarianza singular durante el ajuste de un GMM a un conjunto de datos, por qué sucede esto y qué podemos hacer para evitarlo.
Por lo tanto, es mejor comenzar recapitulando los pasos durante el ajuste de un modelo de mezcla gaussiana a un conjunto de datos.
0. Decida cuántas fuentes / grupos (c) desea ajustar a sus datos
1. Inicialice la media de los parámetros , covarianza Σ c , y fracción_por_clase π c por grupo c
dondeN(x|μ,Σ)describe la Gaussiana multivariada con: N(xi,μc,Σc)=1
ricnos da para cada punto de datosxila medida de:Probabilitythatxibelongstoclas
μc=1
Σc=1
Tenga en cuenta que debe usar los medios actualizados en esta última fórmula. Repita iterativamente los pasos E y M hasta que la función de probabilidad logarítmica de nuestro modelo converja donde la probabilidad logarítmica se calcula con: lnp(X|π,μ,Σ)=Σ N i = 1 ln(Σ K
fuente
En mi humilde opinión, todas las respuestas pierden un hecho fundamental. Si uno mira el espacio de parámetros para un modelo de mezcla gaussiana, este espacio es singular a lo largo del subespacio donde hay menos del número total de componentes en la mezcla. Eso significa que los derivados son automáticamente cero y, por lo general, todo el subespacio se mostrará como un archivo. Más filosóficamente, el subespacio de covarianzas de rango inferior al completo es el límite del espacio de parámetros y uno siempre debe sospechar cuando el mle ocurre en el límite; generalmente indica que hay un espacio de parámetros más grande al acecho en el que uno puede encontrar el 'real' mle. Hay un libro llamado "Estadísticas algebraicas" por Drton, Sturmfeld y Sullivant. Este tema se discute en ese libro con cierto detalle. Si eres realmente curioso, deberías mirar eso.
fuente
Para un solo gaussiano, la media posiblemente sea igual a uno de los puntos de datos (Xnorte por ejemplo) y luego está el siguiente término en la función de probabilidad:
Sin embargo para un punto de datosXmetro diferente de la media σj , tendremos
fuente