Por lo tanto, obtener una "idea" del número óptimo de grupos en k-means está bien documentado. Encontré un artículo sobre cómo hacer esto en mezclas gaussianas, pero no estoy seguro de que me convenza, no lo entiendo muy bien. ¿Hay una ... forma más amable de hacer esto?
10
Respuestas:
Solo alguna extensión del comentario de Dikran Marsupial (validación cruzada). La idea principal es dividir sus datos en conjuntos de capacitación y validación de alguna manera, probar diferentes números de componentes y seleccionar el mejor en función de los valores de probabilidad de validación y capacitación correspondientes.
La probabilidad de GMM es solo por definición, donde K es el número de componentes (grupos) y π , μ , Σ son parámetros del modelo Al cambiar el valor de K , puede trazar la probabilidad de GMM para conjuntos de entrenamiento y validación como los siguientes.p ( x | π, μ , Σ ) = ∑Kπknorte( x | μk, Σk) K π μ Σ K
En este ejemplo, debería ser obvio que el número óptimo de componentes es de alrededor de 20. Hay un buen video sobre esto en Coursera, y es de donde obtuve la imagen de arriba.
fuente