Diferencia entre MLE y Baum Welch en el ajuste HMM

9

En esta pregunta popular , la respuesta altamente votada hace que MLE y Baum Welch se separen en la adaptación HMM.

Para problemas de entrenamiento podemos usar los siguientes 3 algoritmos: MLE (estimación de máxima verosimilitud), entrenamiento de Viterbi (NO confundir con la decodificación de Viterbi), Baum Welch = algoritmo de avance-retroceso

PERO en Wikipedia , dice

El algoritmo Baum-Welch utiliza el conocido algoritmo EM para encontrar la estimación de máxima probabilidad de los parámetros.

Entonces, ¿cuál es la relación entre MLE y el algoritmo de Baum-Welch?


Mi intento: el objetivo del algoritmo Baum-Welch es maximizar la probabilidad, pero utiliza un algoritmo especializado (EM) para resolver la optimización. Todavía podemos maximizar la probabilidad utilizando otros métodos, como el degradado decente. Es por eso que la respuesta hace que dos algoritmos se separen.

¿Tengo razón y alguien puede ayudarme a aclarar?

Haitao Du
fuente
1
En el ámbito de HMM, el MLE se utiliza en un escenario supervisado, y el Baum-Welch en un escenario no supervisado.
David Batista el

Respuestas:

3

Consulte una de las respuestas (por Masterfool) del enlace de preguntas que proporcionó,

La respuesta de Morat es falsa en un punto: Baum-Welch es un algoritmo de maximización de expectativas, utilizado para entrenar los parámetros de un HMM. Utiliza el algoritmo hacia adelante y hacia atrás durante cada iteración. El algoritmo hacia adelante y hacia atrás realmente es solo una combinación de los algoritmos hacia adelante y hacia atrás: un pase hacia adelante, un paso hacia atrás.

Y estoy de acuerdo con la respuesta de PierreE aquí, el algoritmo de Baum-Welch se utiliza para resolver la máxima probabilidad en HHM. Si se conocen los estados (secuencia supervisada, etiquetada), entonces se usa otro método que maximiza MLE (tal vez, simplemente cuente la frecuencia de cada emisión y transición observada en los datos de entrenamiento, vea las diapositivas proporcionadas por Franck Dernoncourt).

En la configuración de MLE para HMM, no creo que pueda usar el descenso de gradiente, ya que la probabilidad (o log-verosimilitud) no tiene una solución de forma cerrada y debe resolverse de manera iterativa, como en el caso modelos de mezcla, entonces pasamos a EM. (Ver más detalles en Bishop, Libro de reconocimiento de patrones, capítulo 13.2.1 Pg614)

Sam
fuente
0

Entonces, ¿cuál es la relación entre MLE y el algoritmo de Baum-Welch?

El algoritmo de maximización de expectativas (EM) es más general y el algoritmo de Baum-Welch es simplemente una instancia de él, y EM es un algoritmo iterativo para la máxima verosimilitud (ML). Entonces, el algoritmo de Baum-Welch también es un algoritmo iterativo para la máxima probabilidad.

Normalmente hay tres algoritmos de optimización para la estimación de máxima verosimilitud (un enfoque frecuente): 1) descenso de gradiente; 2) Markov Chain Monte Carlo; 3) maximización de expectativas.

Lerner Zhang
fuente
-1

Esta pregunta ha estado aquí durante unos meses, pero esta respuesta podría ayudar a los nuevos lectores, como complemento del comentario de David Batista.

El algoritmo de Baulm-Welch (BM) es un algoritmo de maximización de expectativas para resolver la estimación de máxima verosimilitud (MLE) con el fin de entrenar su HMM cuando los estados son desconocidos / ocultos (entrenamiento no supervisado).

Pero si conoce los estados, puede usar un método MLE (que no será el BM) para ajustar su modelo a los datos / estados del par de forma supervisada.

PierreE
fuente