Estimación de las características más importantes en una partición de clúster k-means

19

¿Hay alguna manera de determinar qué características / variables del conjunto de datos son las más importantes / dominantes dentro de una solución de clúster de k-means?

machine-learning clustering k-means importance usuario1624577
fuente

1

¿Cómo define "importante / dominante"? ¿Te refieres al más útil para discriminar entre grupos?

Franck Dernoncourt

3

Sí, lo más útil es lo que quise decir. Creo que parte de mi problema para resolver esto es cómo expresarlo.

user1624577

Gracias por la aclaración. Un término habitual para designar este problema en el aprendizaje automático es la selección de funciones .

Franck Dernoncourt

8

Una forma de cuantificar la utilidad de cada característica (= variable = dimensión), del libro Burns, Robert P. y Richard Burns. Métodos y estadísticas de investigación empresarial utilizando SPSS. Sage, 2008. ( espejo ), la utilidad se define por el poder discriminatorio de las características para distinguir a los grupos.

Por lo general, examinamos las medias para cada grupo en cada dimensión utilizando ANOVA para evaluar qué tan distintos son nuestros grupos. Idealmente, obtendríamos medios significativamente diferentes para la mayoría, si no todas las dimensiones, utilizadas en el análisis. La magnitud de los valores de F realizados en cada dimensión es una indicación de cuán bien discrimina la dimensión respectiva entre los grupos.

Otra forma sería eliminar una característica específica y ver cómo esto impacta los índices de calidad internos . A diferencia de la primera solución, tendría que rehacer el agrupamiento para cada característica (o conjunto de características) que desea analizar.

FYI:

Franck Dernoncourt
fuente

44

Es muy importante agregar que en este contexto uno no debe tomar esos valores F (o p) como indicadores de significancia estadística (es decir, relativa a la población), sino simplemente como indicadores de la magnitud de las diferencias.

ttnphns

3

Puedo pensar en otras dos posibilidades que se centran más en qué variables son importantes para qué grupos.

Clasificación de múltiples clases. Considere los objetos que pertenecen a los miembros del grupo x de la misma clase (p. Ej., Clase 1) y los objetos que pertenecen a otros miembros del grupo de una segunda clase (p. Ej., Clase 2). Entrene a un clasificador para predecir la membresía de la clase (por ejemplo, clase 1 vs. clase 2). Los coeficientes variables del clasificador pueden servir para estimar la importancia de cada variable en la agrupación de objetos para agrupar x . Repita este enfoque para todos los demás grupos.
Similitud de variables intragrupo. Para cada variable, calcule la similitud promedio de cada objeto con su centroide. Una variable que tiene una gran similitud entre un centroide y sus objetos es probablemente más importante para el proceso de agrupación que una variable que tiene poca similitud. Por supuesto, la magnitud de similitud es relativa, pero ahora las variables pueden clasificarse según el grado en que ayudan a agrupar los objetos en cada grupo.

Gyan Veda
fuente

0

Aquí hay un método muy simple. Tenga en cuenta que la distancia euclidiana entre dos centros de agrupación es una suma de la diferencia cuadrada entre las características individuales. Entonces podemos usar la diferencia cuadrada como el peso para cada característica.

ZillGate
fuente

Estimación de las características más importantes en una partición de clúster k-means

Respuestas: