¿Por qué no se optimiza k-means usando el descenso de gradiente?

14

Sé que k-means generalmente se optimiza usando Maximización de Expectativas . Sin embargo, podríamos optimizar su función de pérdida de la misma manera que optimizamos cualquier otra.

Encontré algunos documentos que en realidad usan el descenso de gradiente estocástico para medios k a gran escala, pero no pude responder a mi pregunta.

Entonces, ¿alguien sabe por qué es eso? ¿Es porque la maximización de expectativas converge más rápido ? ¿Tiene alguna garantía particular? ¿O es una razón histórica ?

elsonidoq
fuente
El paso de maximización ya sube el gradiente de probabilidad (condicional a los valores elegidos por el paso de expectativa), ¿verdad?
David J. Harris
@ DavidJ.Harris No creo que el OP esté disputando que EM se comporte como lo hace, sino preguntando por qué un método parece ser ampliamente utilizado y otro método no se usa tanto. Su comentario no parece abordar directamente por qué se podría preferir EM.
Glen_b -Reinstale a Monica el
1
Hola @ DavidJ.Harris, es como Glen_b, entiendo que ambos algoritmos optimizan la probabilidad (EM) o la probabilidad logarítmica (descenso de gradiente). Después de profundizar en google y amigos, llegué a este enlace de papel si esta pregunta se aborda. Si no me perdí de entender, EM llega a una mejor solución que el descenso de gradiente.
elsonidoq
¿Cuál es la función objetivo de k-means para optimizar? ¿Es diferenciable?
Vladislavs Dovgalecs
3
¿Es fácilmente diferenciable en los parámetros (clúster significa) pero seguramente no en las asignaciones de clúster (que son variables indicadoras multinomiales)?
Ruben van Bergen

Respuestas:

7

Como menciona el OP, es posible resolver k-means utilizando el descenso de gradiente, y esto puede ser útil en el caso de problemas a gran escala.

Ciertamente hay razones históricas para la prevalencia de algoritmos de estilo EM para resolver k-means (es decir, el algoritmo de Lloyd). El algoritmo de Lloyd es tan popular que la gente a veces lo llama "el algoritmo k-means", e incluso puede ignorar que existen otros enfoques. Pero, esta popularidad no es inmerecida.

Bottou y Bengio (1995) demostraron que el algoritmo de Lloyd es equivalente a optimizar la función de costo k-means utilizando el método de Newton. En problemas generales de optimización, los métodos de segundo orden como el método de Newton pueden converger más rápido que los métodos de primer orden como el descenso de gradiente porque explotan la información sobre la curvatura de la función objetivo (y los métodos de primer orden no). En un experimento en el conocido conjunto de datos de Iris, mostraron que el algoritmo de Lloyd efectivamente convergía más rápido que el descenso de gradiente. Sería interesante ver esta comparación en una variedad más amplia de conjuntos de datos.

Referencias

Bottou y Bengio (1995) . Propiedades de convergencia de los algoritmos k-means.

usuario20160
fuente
2

La agrupación K-means no está supervisada, y la técnica sin supervisión más cercana que utiliza EM es la agrupación basada en modelos (modelos de mezcla gaussiana, GMM). Un problema molesto con el agrupamiento basado en el modelo GMM ocurre cuando muchas de las características están correlacionadas, lo que causa casi singularidad en la matriz de covarianza (correlación) basada en características. En esta situación, la función de probabilidad se vuelve inestable, con índices de condición que alcanzan el infinito, lo que hace que GMM se descomponga por completo.

Por lo tanto, descarte la idea de EM y kNN, ya que se basa en matrices de covarianza (correlación) para análisis sin supervisión. Su consulta sobre la optimización se parece mucho al mapeo de Sammon y al escalamiento multidimensional métrico y no métrico (MDS) clásico. El mapeo de Sammon se basa en derivativos iterativos, mientras que varias formas de MDS son comúnmente descomposiciones iterativas o de un solo paso, que sin embargo pueden optimizarse durante una operación de matriz de un solo paso.

Volviendo a mirar su solicitud: la respuesta es: ya se ha hecho en el mapeo de Sammon.

JoleT
fuente