Mi objetivo es ver que el algoritmo K-means es, de hecho, un algoritmo de maximización de expectativas para mezclas gaussianas en las que todos los componentes tienen covarianza en el límite como .
Supongamos que tenemos un conjunto de datos de las observaciones de la variable aleatoria .
La función objetivo para las medias M viene dada por:
(si el punto de datos se asigna al clúster , entonces y para k).
El algoritmo K-means minimiza través de la iteración hasta la convergencia, que implica dos pasos sucesivos:
(E) minimizar con respecto a manteniendo todo fijo
(M) minimice con respecto a manteniendo todo fijo
En general, denotando todos los datos observados por , todas las variables latentes por y el conjunto de todos los parámetros del modelo por , el algoritmo EM maximiza la distribución posterior través de la iteración hasta la convergencia, de dos pasos alternos:
(E ) calcule la expectativa
(M) find
Ahora considere la distribución de la mezcla gaussiana: Presentando una variable aleatoria binaria dimensional latente por , vemos que: Entonces
Si ahora todos los gaussianos en el modelo de mezcla tienen covarianza , considerando el límite , puedo mostrar fácilmente que donde es como definido anteriormente. De hecho, el paso (E) actualiza como en el algoritmo K-means.
Sin embargo, tengo problemas para maximizar en este contexto, como para .
¿Es cierto que hasta una multiplicación constante y escalar:
?
Tal vez me estoy perdiendo algo. ¿Algún consejo?
fuente
Respuestas:
Este no es el caso ya que, como usted mismo observó, el límite diverge.
Sin embargo, si primero transformamos y luego tomamos el límite, convergemos al objetivo k-means. Para y tenemosQ Σk=σ2I πk=1/K
Multiplicando por (que no afecta el algoritmo EM, ya que no está optimizado sino constante) y recolectando todos los términos constantes en , vemos que Tenga en cuenta que maximizar esta función con respecto a para cualquier y da lo mismo resultado como la función objetivo anterior, es decir, es una formulación equivalente del paso M. Pero tomar el límite ahora produce .σ2 σ C
Por otro lado, en mi opinión, una formulación ligeramente más elegante de EM es usar la función objetivo Usando esta función objetivo, el algoritmo EM equivale a alternar entre optimizar con respecto a (paso M) y (paso E). Tomando el límite, vemos que tanto el paso M como el paso E convergen con el algoritmo k-means.
Vea también una vista alternativa de EM .
fuente