Tengo una pregunta muy básica sobre la agrupación. Después de haber encontrado k grupos con sus centroides, ¿cómo hago para interpretar las clases de los puntos de datos que he agrupado (asignando etiquetas de clase significativas a cada grupo). No estoy hablando de la validación de los grupos encontrados.
¿Se puede hacer dado un pequeño conjunto etiquetado de puntos de datos, calcular a qué grupo pertenecen estos puntos etiquetados y según el tipo y la cantidad de puntos que recibe cada grupo, decidir la etiqueta? Esto parece bastante obvio, pero no sé qué tan estándar es asignar etiquetas a los clústeres de esta manera.
Para que quede claro, quiero realizar una agrupación no supervisada que no utilice ninguna etiqueta para encontrar primero mis agrupaciones. Luego de haber encontrado los grupos, quiero asignar etiquetas de clase significativas a los grupos basados en las propiedades de algunos puntos de datos de ejemplo.
Respuestas:
Si. Lo que usted propone es completamente estándar y es la forma en que el software estándar k-means funciona automáticamente. En el caso de k-significa que calcula la distancia euclidiana entre cada observación (punto de datos) y cada media del grupo (centroide) y asigna las observaciones al grupo más similar. Luego, la etiqueta del grupo se determina examinando las características promedio de las observaciones clasificadas para el grupo en relación con los promedios de aquellos en relación con los otros grupos.
fuente
Si observa los nombres en su objeto kmeans, notará que hay un objeto "cluster". Contiene las etiquetas de clase ordenadas de la misma manera que sus datos de entrada. Aquí hay un ejemplo simple que une las etiquetas del clúster a sus datos.
fuente
Las etiquetas del clúster pueden basarse en la clase de muestras mayoritarias dentro de un clúster. Pero esto es cierto solo si el número de clústeres es igual al número de clases.
fuente