Número óptimo de componentes en una mezcla gaussiana

10

Por lo tanto, obtener una "idea" del número óptimo de grupos en k-means está bien documentado. Encontré un artículo sobre cómo hacer esto en mezclas gaussianas, pero no estoy seguro de que me convenza, no lo entiendo muy bien. ¿Hay una ... forma más amable de hacer esto?

JEquihua
fuente
44
¿Podría citar el artículo, o al menos describir la metodología que propone? Es difícil encontrar una forma "más amable" de hacer esto si no conocemos la línea de base :)
jbowman
1
Geoff McLachlan y otros han escrito libros sobre distribuciones de mezclas. Estoy seguro de que estos incluyen enfoques para determinar el número de componentes en una mezcla. Probablemente podrías mirar allí. Estoy de acuerdo con jbowman en que aliviar su confusión se lograría mejor si nos indica de qué está confundido.
Michael R. Chernick
El número óptimo estimado de mezclas gaussianas basado en k-medias incrementales para la identificación del hablante ... Es su título, se puede descargar gratis. Básicamente incrementa el número de grupos en 1 hasta que veas que dos grupos se vuelven dependientes entre sí, algo así. ¡Gracias!
JEquihua
¿Por qué no simplemente elegir el número de componentes que maximiza la estimación de validación cruzada de la probabilidad? Es computacionalmente costoso, pero la validación cruzada es difícil de superar en la mayoría de los casos para la selección del modelo, a menos que haya una gran cantidad de parámetros para ajustar.
Dikran Marsupial
¿Puedes explicar un poco cuál es la estimación de validación cruzada de la probabilidad? No estoy al tanto del concepto. Gracias.
JEquihua

Respuestas:

5

Solo alguna extensión del comentario de Dikran Marsupial (validación cruzada). La idea principal es dividir sus datos en conjuntos de capacitación y validación de alguna manera, probar diferentes números de componentes y seleccionar el mejor en función de los valores de probabilidad de validación y capacitación correspondientes.

La probabilidad de GMM es solo por definición, donde K es el número de componentes (grupos) y π , μ , Σ son parámetros del modelo Al cambiar el valor de K , puede trazar la probabilidad de GMM para conjuntos de entrenamiento y validación como los siguientes.pag(XEl |π,μ,Σ)=Kπknorte(XEl |μk,Σk)KπμΣK

ingrese la descripción de la imagen aquí

En este ejemplo, debería ser obvio que el número óptimo de componentes es de alrededor de 20. Hay un buen video sobre esto en Coursera, y es de donde obtuve la imagen de arriba.


siyoC=-2Iniciar sesión(L)+KIniciar sesión(norte)
Lnorte
dontloo
fuente