Sé que k-means generalmente se optimiza usando Maximización de Expectativas . Sin embargo, podríamos optimizar su función de pérdida de la misma manera que optimizamos cualquier otra.
Encontré algunos documentos que en realidad usan el descenso de gradiente estocástico para medios k a gran escala, pero no pude responder a mi pregunta.
Entonces, ¿alguien sabe por qué es eso? ¿Es porque la maximización de expectativas converge más rápido ? ¿Tiene alguna garantía particular? ¿O es una razón histórica ?
Respuestas:
Como menciona el OP, es posible resolver k-means utilizando el descenso de gradiente, y esto puede ser útil en el caso de problemas a gran escala.
Ciertamente hay razones históricas para la prevalencia de algoritmos de estilo EM para resolver k-means (es decir, el algoritmo de Lloyd). El algoritmo de Lloyd es tan popular que la gente a veces lo llama "el algoritmo k-means", e incluso puede ignorar que existen otros enfoques. Pero, esta popularidad no es inmerecida.
Bottou y Bengio (1995) demostraron que el algoritmo de Lloyd es equivalente a optimizar la función de costo k-means utilizando el método de Newton. En problemas generales de optimización, los métodos de segundo orden como el método de Newton pueden converger más rápido que los métodos de primer orden como el descenso de gradiente porque explotan la información sobre la curvatura de la función objetivo (y los métodos de primer orden no). En un experimento en el conocido conjunto de datos de Iris, mostraron que el algoritmo de Lloyd efectivamente convergía más rápido que el descenso de gradiente. Sería interesante ver esta comparación en una variedad más amplia de conjuntos de datos.
Referencias
Bottou y Bengio (1995) . Propiedades de convergencia de los algoritmos k-means.
fuente
La agrupación K-means no está supervisada, y la técnica sin supervisión más cercana que utiliza EM es la agrupación basada en modelos (modelos de mezcla gaussiana, GMM). Un problema molesto con el agrupamiento basado en el modelo GMM ocurre cuando muchas de las características están correlacionadas, lo que causa casi singularidad en la matriz de covarianza (correlación) basada en características. En esta situación, la función de probabilidad se vuelve inestable, con índices de condición que alcanzan el infinito, lo que hace que GMM se descomponga por completo.
Por lo tanto, descarte la idea de EM y kNN, ya que se basa en matrices de covarianza (correlación) para análisis sin supervisión. Su consulta sobre la optimización se parece mucho al mapeo de Sammon y al escalamiento multidimensional métrico y no métrico (MDS) clásico. El mapeo de Sammon se basa en derivativos iterativos, mientras que varias formas de MDS son comúnmente descomposiciones iterativas o de un solo paso, que sin embargo pueden optimizarse durante una operación de matriz de un solo paso.
Volviendo a mirar su solicitud: la respuesta es: ya se ha hecho en el mapeo de Sammon.
fuente