La pregunta es legítima y tuve la misma confusión cuando aprendí el algoritmo EM.
En términos generales, el algoritmo EM define un proceso iterativo que permite maximizar la función de probabilidad de un modelo paramétrico en el caso de que algunas variables del modelo estén (o sean tratadas como) "latentes" o desconocidas.
En teoría, para el mismo propósito, puede usar un algoritmo de minimización para encontrar numéricamente el máximo de la función de probabilidad para todos los parámetros. Sin embargo, en una situación real, esta minimización sería:
- mucho más computacionalmente intensivo
- menos robusto
Una aplicación muy común del método EM es ajustar un modelo de mezcla. En este caso, considerando la variable que asigna cada muestra a uno de los componentes como variables "latentes", el problema se simplifica enormemente.
Veamos un ejemplo. Tenemos N muestras extraídas de una mezcla de 2 distribuciones normales. Para encontrar los parámetros sin EM debemos minimizar:s = { syo}
- registroL (x,θ)=-log[ a1exp( ( x - μ1)22 σ21) +a2exp( ( x - μ2)22 σ22) ]
Por el contrario, usando el algoritmo EM, primero "asignamos" cada muestra a un componente ( paso E ) y luego ajustamos (o maximizamos la probabilidad de) cada componente por separado ( paso M ). En este ejemplo, el paso M es simplemente una media ponderada para encontrar y σ k . Iterar sobre estos dos pasos es una forma más simple y robusta de minimizar : log L ( x , θ ) .μkσk- registroL (x,θ)
EM se usa porque a menudo es inviable o imposible calcular directamente los parámetros de un modelo que maximiza la probabilidad de un conjunto de datos dado ese modelo.
fuente