¿Qué significa ss total y entre ss en el agrupamiento k-means?

10

Soy muy nuevo en el análisis de conglomerados. Estoy usando R para el agrupamiento k-means y me pregunto cuáles son esas cosas. ¿Y qué es mejor si su proporción es menor o mayor?

Kanbhold
fuente

Respuestas:

12

Básicamente es una medida de la bondad de la clasificación que k-means ha encontrado. SS obviamente significa Suma de cuadrados, por lo que es la descomposición habitual de la desviación en la desviación "Entre" y la desviación "Dentro". Idealmente, desea una agrupación que tenga las propiedades de cohesión interna y separación externa, es decir, la relación BSS / TSS debería acercarse a 1.

Por ejemplo, en R:

data(iris)
km <- kmeans(iris[,1:4], 3)

da una relación BSS / TSS del 88,4% (0,884) que indica un buen ajuste. Debe tener mucho cuidado, y generalmente es una buena idea trazar el WSS contra el número de clúster, ya que este número debe especificarse de antemano.

lambda_vu
fuente