Estoy leyendo el algoritmo Bishop en EM para GMM y la relación entre GMM y k-means.
En este libro dice que k-means es una versión difícil de GMM. Me pregunto si eso implica que si los datos que intento agrupar no son gaussianos, no puedo usar k-means (o al menos no es adecuado). Por ejemplo, ¿qué pasa si los datos son imágenes de dígitos escritos a mano, que consisten en 8 * 8 píxeles cada uno con valor 0 o 1 (y suponiendo que son independientes, por lo tanto, debería ser una mezcla de Bernoulli)?
Estoy un poco confundido con esto y agradeceré cualquier pensamiento.
clustering
data-mining
k-means
gaussian-mixture
eddie.xie
fuente
fuente
Respuestas:
En situaciones típicas de EM GMM, uno tiene en cuenta la varianza y la covarianza. Esto no se hace en k-means.
Pero, de hecho, una de las heurísticas populares para k-means (nota: k-means es un problema, no un algoritmo), el algoritmo de Lloyd, es esencialmente un algoritmo EM, que utiliza un modelo de centroide (sin varianza) y asignaciones difíciles.
Al hacer clustering de estilo k-means (es decir, minimización de varianza), usted
Se dice comúnmente que k-means asume grupos esféricos. También se reconoce comúnmente que los grupos k-means son células Voronoi, es decir, no esféricas. Ambos son correctos y ambos están equivocados. En primer lugar, los grupos no son células Voronoi completas, sino solo los objetos conocidos en ellas. No es necesario considerar que el espacio muerto entre los grupos sea parte de cualquiera de los grupos, ya que tener un objeto allí afectaría el resultado del algoritmo. Pero tampoco es mucho mejor llamarlo "esférico", solo porque la distancia euclidiana es esférica. A K-means no le importa la distancia euclidiana. Todo lo que es, es una heurística para minimizar las variaciones . Y eso es, en realidad, lo que debe considerar k-significa: minimización de varianza.
fuente
minimize squared euclidean distance
ominimize the variances
? Debe haber palabras "suma de" o "agrupadas" o algo así, porque tenemos más de 2 grupos, ¿no?coincidentally minimize Euclidean distance, because the sqrt function is monotone
es, para ser precisos, no correcto.minimize squared Euclidean distance, because WCSS variance contribution = squared euclidean distance
significa ? ¿Está diciendo que "las d cuadradas entre los objetos en los grupos se minimizan porque el WCSS de las desviaciones se minimiza", o simplemente "el WCSS de las desviaciones se minimiza, que, las desviaciones, son distancias euclidianas por naturaleza"? ¿O algo más?GMM utiliza colinas superpuestas que se extienden hasta el infinito (pero prácticamente solo cuentan para 3 sigma). Cada punto obtiene los puntajes de probabilidad de todas las colinas. Además, las colinas tienen "forma de huevo" [bueno, son elipses simétricas ] y, usando la matriz de covarianza completa, pueden inclinarse .
K-significa asigna un punto a un solo grupo, por lo que las puntuaciones de los otros centros de grupo se ignoran (se restablecen implícitamente a cero / no me importa). Las colinas son pompas de jabón esféricas. Cuando dos burbujas de jabón se tocan, el límite entre ellas se convierte en un plano (hiper) plano. Al igual que cuando se sopla una espuma de muchas pompas de jabón, las burbujas en el interior no son planas, sino cuadradas, por lo que los límites entre muchas (hiper) esferas en realidad forman una partición Voronoi del espacio. En 2D, esto tiende a parecerse vagamente al empaquetamiento hexagonal cerrado, piense en una colmena de abejas (aunque, por supuesto, no se garantiza que las células Voronoi sean hexágonos). Una colina K significa que es redonda y no se inclina, por lo que tiene menos poder de representación; pero es mucho más rápido de calcular, especialmente en las dimensiones superiores.
Debido a que K-means utiliza la métrica de distancia euclidiana, supone que las dimensiones son comparables y de igual peso. Entonces, si la dimensión X tiene unidades de millas por hora, que varía de 0 a 80, y la dimensión Y tiene unidades de libras, que varían de 0 a 400, y está ajustando círculos en este espacio XY, entonces una dimensión (y su extensión) será más poderoso que la otra dimensión y eclipsará los resultados. Es por eso que se acostumbra normalizar los datos al tomar K-means.
Tanto GMM como K-means modelan los datos ajustando las mejores aproximaciones a lo que se proporciona. GMM se adapta a los huevos inclinados, y K-means se adapta a las esferas hasta. Pero los datos subyacentes podrían tener la forma de cualquier cosa, podría ser una espiral o una pintura de Picasso, y cada algoritmo aún se ejecutaría y tomaría su mejor tiro. Si el modelo resultante se parece a los datos reales depende del proceso físico subyacente que genera los datos. (Por ejemplo, las mediciones de retardo de tiempo son unilaterales; ¿es un Gaussiano un buen ajuste? Quizás).
Por lo tanto, su imagen binaria de 8x8 se interpretará como un hipercubo de 64 dimensiones en el primer hiperquadrante. Los algoritmos luego usan analogías geométricas para encontrar grupos. La distancia, con K-medias, aparece como distancia euclidiana en un espacio de 64 dimensiones. Es una forma de hacerlo.
fuente