¿Hay alguna manera de determinar qué características / variables del conjunto de datos son las más importantes / dominantes dentro de una solución de clúster de k-means?
machine-learning
clustering
k-means
importance
usuario1624577
fuente
fuente
Respuestas:
Una forma de cuantificar la utilidad de cada característica (= variable = dimensión), del libro Burns, Robert P. y Richard Burns. Métodos y estadísticas de investigación empresarial utilizando SPSS. Sage, 2008. ( espejo ), la utilidad se define por el poder discriminatorio de las características para distinguir a los grupos.
Otra forma sería eliminar una característica específica y ver cómo esto impacta los índices de calidad internos . A diferencia de la primera solución, tendría que rehacer el agrupamiento para cada característica (o conjunto de características) que desea analizar.
FYI:
fuente
Puedo pensar en otras dos posibilidades que se centran más en qué variables son importantes para qué grupos.
Clasificación de múltiples clases. Considere los objetos que pertenecen a los miembros del grupo x de la misma clase (p. Ej., Clase 1) y los objetos que pertenecen a otros miembros del grupo de una segunda clase (p. Ej., Clase 2). Entrene a un clasificador para predecir la membresía de la clase (por ejemplo, clase 1 vs. clase 2). Los coeficientes variables del clasificador pueden servir para estimar la importancia de cada variable en la agrupación de objetos para agrupar x . Repita este enfoque para todos los demás grupos.
Similitud de variables intragrupo. Para cada variable, calcule la similitud promedio de cada objeto con su centroide. Una variable que tiene una gran similitud entre un centroide y sus objetos es probablemente más importante para el proceso de agrupación que una variable que tiene poca similitud. Por supuesto, la magnitud de similitud es relativa, pero ahora las variables pueden clasificarse según el grado en que ayudan a agrupar los objetos en cada grupo.
fuente
Aquí hay un método muy simple. Tenga en cuenta que la distancia euclidiana entre dos centros de agrupación es una suma de la diferencia cuadrada entre las características individuales. Entonces podemos usar la diferencia cuadrada como el peso para cada característica.
fuente