Estoy usando R para hacer clustering K-means. Estoy usando 14 variables para ejecutar K-means
- ¿Cuál es una manera bonita de trazar los resultados de K-means?
- ¿Hay implementaciones existentes?
- ¿Tener 14 variables complica el trazado de los resultados?
Encontré algo llamado GGcluster que se ve genial pero todavía está en desarrollo. También leí algo sobre el mapeo sammon, pero no lo entendí muy bien. ¿Sería esta una buena opción?
Respuestas:
Presionaría el diagrama de la silueta para esto, porque es poco probable que obtenga mucha información procesable de los diagramas de pares cuando el número de dimensión es 14.
Este enfoque es muy citado y bien conocido (vea aquí una explicación).
Rousseeuw, PJ (1987) Silhouettes: una ayuda gráfica para la interpretación y validación del análisis de conglomerados . J. Comput. Appl. Matemáticas. , 20 , 53-65.
fuente
Aquí un ejemplo que puede ayudarte:
Según el último gráfico, puede decidir cuál de las variables iniciales desea trazar. Tal vez 14 variables son enormes, por lo que puede probar un análisis de componentes principales (PCA) antes y luego usar los primeros dos o tres componentes de la PCA para realizar el análisis de conglomerados.
fuente
pairs
función.La forma más simple que sé hacer es la siguiente:
De esta manera, puede dibujar los puntos de cada grupo utilizando un color diferente y sus centroides.
fuente