¿Cuál es la diferencia entre EM y Gradient Ascent?

¿Cuál es la diferencia entre los algoritmos EM (Expectation Maximization) y Gradient Ascent (or descent)? ¿Hay alguna condición bajo la cual sean equivalentes?

gradient-descent expectation-maximization Aslan986
fuente

Respuestas:

Desde:

Xu L y Jordan MI (1996). Sobre las propiedades de convergencia del algoritmo EM para mezclas gaussianas . Cálculo neuronal 2: 129-151.

Abstracto:

Mostramos que el paso EM en el espacio de parámetros se obtiene del gradiente a través de una matriz de proyección P, y proporcionamos una expresión explícita para la matriz.

Página 2

En particular, mostramos que el paso EM puede obtenerse multiplicando previamente el gradiente por una matriz denita positiva. Proporcionamos una expresión explícita para la matriz ...

Página 3

Es decir, el algoritmo EM puede verse como un algoritmo de ascenso de gradiente métrico variable ...

Es decir, el documento proporciona transformaciones explícitas del algoritmo EM en ascenso de gradiente, Newton, cuasi-Newton.

De wikipedia

Existen otros métodos para encontrar estimaciones de máxima verosimilitud, como el descenso de gradiente, el gradiente conjugado o las variaciones del método de Gauss-Newton. A diferencia de EM, tales métodos típicamente requieren la evaluación de la primera y / o segunda derivada de la función de probabilidad.

Ron Coleman
fuente

Esta respuesta parece insinuar que EM y el descenso de gradiente son básicamente el mismo algoritmo, con transformaciones disponibles para cambiar de un algoritmo a otro. Esto definitivamente no es cierto en general, y depende en gran medida del modelo generativo tomado en consideración. El documento citado solo saca conclusiones para los modelos de mezcla gaussianos (que son modelos generativos relativamente simples), y con razón. En mi experiencia (ciertamente limitada), cuando el modelo es altamente no lineal y el papel de las variables latentes es importante, EM es la única forma de obtener reglas de actualización razonables.

azul

No, no son equivalentes. En particular, la convergencia EM es mucho más lenta.

Si está interesado en un punto de vista de optimización en EM, en este documento verá que el algoritmo EM es un caso especial de una clase más amplia de algoritmos (algoritmos de punto proximal).

Elvis
fuente

O para un tipo de idea similar, Hinton y Neal (1998)

conjugateprior

"La convergencia EM es mucho más lenta"; Esto no está bien definido, y ciertamente no es cierto en general. Los algoritmos EM son una clase completa de algoritmos. Para muchos problemas, un cierto algoritmo EM es el estado del arte.

Cliff AB

@CliffAB, por favor no dude en dar más detalles sobre esto, me encantaría leer sus argumentos. Al leer esta respuesta de 4 años, me doy cuenta de que no respondería esto hoy. Desde entonces descubrí que, en muchos casos, el EM es un ascenso en gradiente con un parámetro de 'tasa de aprendizaje' dependiendo del punto actual ... (puedo editar esta respuesta en un momento para señalar los resultados del tipo)

Elvis

La "convergencia más lenta" podría definirse en términos de tasa de convergencia. La tasa de convergencia de un ascenso en gradiente dependerá de la "tasa de aprendizaje", que no es fácil de elegir, lo que dificulta el ascenso en muchos casos. Sin embargo, todavía tengo la intuición de que, si bien EM puede ser en algunos casos el único algoritmo factible (las derivadas de la probabilidad o la probabilidad en sí misma son difíciles de calcular), su tasa de convergencia es pobre, en comparación con un método similar a Newton.

Elvis

"El" algoritmo EM es realmente una clase completa de algoritmos; uno en el que la función de destino original es difícil de optimizar, pero si se conociera alguna otra variable, la solución sería mucho más fácil (generalmente en forma cerrada). El esquema básico es completar la variable esperada condicional a los valores actuales de los otros parámetros, luego actualizar los parámetros basados en el valor esperado de la variable. Se ha demostrado que la rapidez con que converge el algoritmo depende de qué tan informativos sean los datos imputados; cuanto más "informativos" son los datos faltantes, más lenta es la convergencia.

Cliff AB