Soy muy nuevo en el análisis de conglomerados. Estoy usando R para el agrupamiento k-means y me pregunto cuáles son esas cosas. ¿Y qué es mejor si su proporción es menor o mayor?
fuente
Soy muy nuevo en el análisis de conglomerados. Estoy usando R para el agrupamiento k-means y me pregunto cuáles son esas cosas. ¿Y qué es mejor si su proporción es menor o mayor?
Básicamente es una medida de la bondad de la clasificación que k-means ha encontrado. SS obviamente significa Suma de cuadrados, por lo que es la descomposición habitual de la desviación en la desviación "Entre" y la desviación "Dentro". Idealmente, desea una agrupación que tenga las propiedades de cohesión interna y separación externa, es decir, la relación BSS / TSS debería acercarse a 1.
Por ejemplo, en R:
data(iris)
km <- kmeans(iris[,1:4], 3)
da una relación BSS / TSS del 88,4% (0,884) que indica un buen ajuste. Debe tener mucho cuidado, y generalmente es una buena idea trazar el WSS contra el número de clúster, ya que este número debe especificarse de antemano.