¿Por qué solo se utiliza el valor medio en el método de agrupación (K-means)?

8

En los métodos de agrupamiento como K-means , la distancia euclidiana es la métrica a utilizar. Como resultado, solo calculamos los valores medios dentro de cada grupo. Y luego se realizan ajustes en los elementos en función de su distancia a cada valor medio.

Me preguntaba por qué la función gaussiana no se usa como métrica. En lugar de usar xi -mean(X), podemos usar exp(- (xi - mean(X)).^2/std(X).^2). Por lo tanto, no solo se mide la similitud entre los grupos (media), sino que también se considera la similitud dentro del grupo (estándar). ¿Es esto también equivalente al modelo de mezcla gaussiana ?

Está más allá de mi pregunta aquí, pero creo que el cambio medio puede surgir la misma pregunta anterior.

lennon310
fuente
1
Este hilo puede ser útil. stats.stackexchange.com/questions/76866/… Busque en sus etiquetas otras preguntas relevantes.
DL Dahly
@DLDahly Gracias Dahly. ¿Podemos ver el GMM basado en EM como una k-media ponderada (con diferentes pesos en las variaciones)?
lennon310
No es como lo pensaría; más bien veo k-means como un GMM donde las variaciones están restringidas a cero.
DL Dahly

Respuestas:

5

Hay literalmente miles de variaciones de k-medias . Incluyendo asignación suave, varianza y covarianza (generalmente conocido como modelado de mezcla gaussiana o algoritmo EM).

Sin embargo, me gustaría señalar algunas cosas:

  • K-means no se basa en la distancia euclidiana. Se basa en la minimización de la varianza . Como la varianza es la suma de las distancias euclidianas al cuadrado, la asignación de varianza mínima es la que tiene el euclidiano cuadrado más pequeño, y la función de raíz cuadrada es monótona. Por razones de eficiencia, en realidad es más inteligente no calcular la distancia euclidiana (pero usar los cuadrados)

  • Si conecta una función de distancia diferente en k-significa que puede dejar de converger. Debe minimizar el mismo criterio en ambos pasos ; El segundo paso es volver a calcular los medios. Estimar el centro usando la media aritmética es un estimador de mínimos cuadrados, y minimizará la varianza. Como ambas funciones minimizan la varianza, k-means debe converger. Si desea garantizar la convergencia con otras distancias, use PAM (partición alrededor de medoides. El medoide minimiza las distancias dentro del clúster para funciones de distancia arbitrarias).

Pero al final, k-means y todas sus variaciones son, en mi humilde opinión, más una optimización (o más precisamente, un algoritmo de cuantificación vectorial ) que un algoritmo de análisis de conglomerados. En realidad, no "descubrirán" la estructura. Masajearán sus datos en k particiones. Si les proporciona datos uniformes, sin ninguna estructura más allá de la aleatoriedad, k-means todavía encontrará la cantidad de "grupos" que desee que encuentre. k-means está contento con devolver resultados que son esencialmente aleatorios .

HA SALIDO - Anony-Mousse
fuente
1
+1. Sin embargo, afirmar que K-means no es una agrupación parece ser demasiado radical, demasiado punto de vista de "minería de datos". Históricamente, K-means es el clásico análisis de agrupación partinioning. El hecho de que participe felizmente los datos "no estructurados" no los excluye del dominio de la agrupación: muchos tipos de análisis pueden ser, por así decirlo, mal utilizados y dar resultados tontos.
ttnphns
Un punto más: K-means is not based on Euclidean distanceno hay suficiente lugar claro en su respuesta. Usted y yo tuvimos discusiones al respecto en el pasado y demostré que la minimización de la varianza está relacionada con la suma de euclidiana d ^ 2 por pares dentro del grupo.
ttnphns
Claramente estoy afirmando la relación con la distancia euclidiana a través de la varianza. La cuestión es que debe reemplazar la varianza con una medida diferente (luego elegir la asignación y actualizar en consecuencia), no intercambiar Euclidiana y esperar que la media siga siendo significativa.
HA SALIDO - Anony-Mousse
Históricamente, Lloyd publicó k-means como " Cuantización de mínimos cuadrados en PCM". Del mismo modo, Steinhaus tenía el deseo de realizar la cuantización. Lo que explica muy bien por qué se usa SSQ, ya que SSQ es el error al cuadrado de la discretización. MacQueen menciona el análisis de conglomerados como una aplicación del algoritmo, pero sugiere utilizar una versión modificada del algoritmo que pueda agregar o eliminar clústeres según lo desee (en ese momento, en realidad comienza a ser más que cuantificación).
HA SALIDO - Anony-Mousse
El punto que estoy tratando de hacer al final es analizar la cuantización de vectores , no solo el "agrupamiento", ya que recientemente la investigación de agrupamiento está dominada por el punto de vista de minería de datos (y la mayor parte del tiempo ya no se basa en k-medias ) . La cuantización vectorial puede ser el término de búsqueda mucho mejor (porque mucho más preciso) .
HA SALIDO - Anony-Mousse
3

Existen muchas técnicas de agrupamiento diferentes, y K-means es solo un enfoque. Como comentó DL Dahly, los algoritmos EM se pueden usar para la agrupación de la forma que usted describió. Vale la pena señalar que la principal diferencia entre K-means y el uso de EM con un modelo de mezcla guassiana para la agrupación es la forma de los clusters: el centroide todavía se aproximará mucho a la media de los puntos en el grupo, pero K-means dará un cúmulo esférico mientras que un núcleo gaussiano dará un elipsoide.

La agrupación jerárquica utiliza un enfoque completamente diferente. La agrupación basada en la densidad está motivada por una heurística similar a la agrupación basada en la media, pero obviamente da resultados diferentes. Existen muchas técnicas de agrupamiento que no consideran ningún tipo de significado.

Realmente cuando se trata de eso, la elección del algoritmo es una función del dominio del problema y la experimentación (es decir, ver qué funciona).

David Marx
fuente
Gracias David. Supongo que Hierarchical da resultados diferentes de kmeans porque las definiciones de distancia entre dos grupos no son las mismas. Puede que no sea fácil determinar qué métrica usar y si se debe incluir la varianza. Parece que diferentes grupos de personas desarrollaron sus propias métricas sobre su propio problema. El método simplemente le dio a dicho problema un buen resultado, pero careció de soporte teórico sobre la opción de los métodos de agrupamiento.
lennon310