En los métodos de agrupamiento como K-means , la distancia euclidiana es la métrica a utilizar. Como resultado, solo calculamos los valores medios dentro de cada grupo. Y luego se realizan ajustes en los elementos en función de su distancia a cada valor medio.
Me preguntaba por qué la función gaussiana no se usa como métrica. En lugar de usar xi -mean(X)
, podemos usar exp(- (xi - mean(X)).^2/std(X).^2)
. Por lo tanto, no solo se mide la similitud entre los grupos (media), sino que también se considera la similitud dentro del grupo (estándar). ¿Es esto también equivalente al modelo de mezcla gaussiana ?
Está más allá de mi pregunta aquí, pero creo que el cambio medio puede surgir la misma pregunta anterior.
Respuestas:
Hay literalmente miles de variaciones de k-medias . Incluyendo asignación suave, varianza y covarianza (generalmente conocido como modelado de mezcla gaussiana o algoritmo EM).
Sin embargo, me gustaría señalar algunas cosas:
K-means no se basa en la distancia euclidiana. Se basa en la minimización de la varianza . Como la varianza es la suma de las distancias euclidianas al cuadrado, la asignación de varianza mínima es la que tiene el euclidiano cuadrado más pequeño, y la función de raíz cuadrada es monótona. Por razones de eficiencia, en realidad es más inteligente no calcular la distancia euclidiana (pero usar los cuadrados)
Si conecta una función de distancia diferente en k-significa que puede dejar de converger. Debe minimizar el mismo criterio en ambos pasos ; El segundo paso es volver a calcular los medios. Estimar el centro usando la media aritmética es un estimador de mínimos cuadrados, y minimizará la varianza. Como ambas funciones minimizan la varianza, k-means debe converger. Si desea garantizar la convergencia con otras distancias, use PAM (partición alrededor de medoides. El medoide minimiza las distancias dentro del clúster para funciones de distancia arbitrarias).
Pero al final, k-means y todas sus variaciones son, en mi humilde opinión, más una optimización (o más precisamente, un algoritmo de cuantificación vectorial ) que un algoritmo de análisis de conglomerados. En realidad, no "descubrirán" la estructura. Masajearán sus datos en k particiones. Si les proporciona datos uniformes, sin ninguna estructura más allá de la aleatoriedad, k-means todavía encontrará la cantidad de "grupos" que desee que encuentre. k-means está contento con devolver resultados que son esencialmente aleatorios .
fuente
K-means is not based on Euclidean distance
no hay suficiente lugar claro en su respuesta. Usted y yo tuvimos discusiones al respecto en el pasado y demostré que la minimización de la varianza está relacionada con la suma de euclidiana d ^ 2 por pares dentro del grupo.Existen muchas técnicas de agrupamiento diferentes, y K-means es solo un enfoque. Como comentó DL Dahly, los algoritmos EM se pueden usar para la agrupación de la forma que usted describió. Vale la pena señalar que la principal diferencia entre K-means y el uso de EM con un modelo de mezcla guassiana para la agrupación es la forma de los clusters: el centroide todavía se aproximará mucho a la media de los puntos en el grupo, pero K-means dará un cúmulo esférico mientras que un núcleo gaussiano dará un elipsoide.
La agrupación jerárquica utiliza un enfoque completamente diferente. La agrupación basada en la densidad está motivada por una heurística similar a la agrupación basada en la media, pero obviamente da resultados diferentes. Existen muchas técnicas de agrupamiento que no consideran ningún tipo de significado.
Realmente cuando se trata de eso, la elección del algoritmo es una función del dominio del problema y la experimentación (es decir, ver qué funciona).
fuente