He estudiado algoritmos para agrupar datos (aprendizaje no supervisado): EM y k-means. Sigo leyendo lo siguiente:
k-means es una variante de EM, con los supuestos de que los grupos son esféricos.
¿Alguien puede explicar la oración anterior? No entiendo qué significa esférico y cómo se relacionan kmeans y EM, ya que uno realiza la asignación probabilística y el otro lo hace de manera determinista.
Además, ¿en qué situación es mejor usar el agrupamiento k-means? o usar la agrupación EM?
Respuestas:
K significa
EM
fuente
No hay un "algoritmo k-means". Existe el algoritmo MacQueens para k-means, el algoritmo Lloyd / Forgy para k-means, el método Hartigan-Wong, ...
Tampoco existe "el" algoritmo EM. Es un esquema general de esperar repetidamente las probabilidades y luego maximizar el modelo. La variante más popular de EM también se conoce como "Modelado de mezcla gaussiana" (GMM), donde el modelo son distribuciones gaussianas multivariadas.
Se puede considerar que el algoritmo de Lloyds consta de dos pasos:
... iterar estos dos pasos, como lo hizo Lloyd, hace que esto sea efectivamente una instancia del esquema EM general. Se diferencia de GMM que:
fuente
Aquí hay un ejemplo, si estuviera haciendo esto en mplus, que podría ser útil y complementar respuestas más completas:
Digamos que tengo 3 variables continuas y quiero identificar grupos basados en estas. Especificaría un modelo de mezcla (más específicamente en este caso, un modelo de perfil latente), suponiendo independencia condicional (las variables observadas son independientes, dada la membresía del clúster) como:
Ejecutaría este modelo varias veces, cada vez especificando un número diferente de clústeres, y elegiría la solución que más me gusta (hacer esto es un tema muy amplio por sí solo).
Para ejecutar k-means, especificaría el siguiente modelo:
Por lo tanto, la membresía de clase solo se basa en la distancia a las medias de las variables observadas. Como se indicó en otras respuestas, las variaciones no tienen nada que ver con eso.
Lo bueno de hacer esto en mplus es que estos son modelos anidados, por lo que puede probar directamente si las restricciones resultan en peor ajuste o no, además de poder comparar la discordancia en la clasificación entre los dos métodos. Por cierto, ambos modelos se pueden estimar utilizando un algoritmo EM, por lo que la diferencia es realmente más sobre el modelo.
Si piensas en el espacio tridimensional, el 3 significa hacer un punto ... y las variaciones de los tres ejes de un elipsoide que atraviesan ese punto. Si las tres variaciones son iguales, obtendrías una esfera.
fuente