¿Por qué se utiliza el algoritmo de maximización de expectativas?

22

Por lo poco que sé, el algoritmo EM se puede usar para encontrar la probabilidad máxima cuando se establece en cero las derivadas parciales con respecto a los parámetros de la probabilidad, da un conjunto de ecuaciones que no se pueden resolver analíticamente. Pero, ¿es necesario el algoritmo EM en lugar de utilizar alguna técnica numérica para tratar de encontrar un máximo de probabilidad con respecto a la restricción del conjunto de ecuaciones mencionadas?

expectation-maximization usuario782220
fuente

20

La pregunta es legítima y tuve la misma confusión cuando aprendí el algoritmo EM.

En términos generales, el algoritmo EM define un proceso iterativo que permite maximizar la función de probabilidad de un modelo paramétrico en el caso de que algunas variables del modelo estén (o sean tratadas como) "latentes" o desconocidas.

En teoría, para el mismo propósito, puede usar un algoritmo de minimización para encontrar numéricamente el máximo de la función de probabilidad para todos los parámetros. Sin embargo, en una situación real, esta minimización sería:

mucho más computacionalmente intensivo
menos robusto

Una aplicación muy común del método EM es ajustar un modelo de mezcla. En este caso, considerando la variable que asigna cada muestra a uno de los componentes como variables "latentes", el problema se simplifica enormemente.

Veamos un ejemplo. Tenemos N muestras extraídas de una mezcla de 2 distribuciones normales. Para encontrar los parámetros sin EM debemos minimizar: $s = \{s_i\}$

- Iniciar sesión L (X, θ) = - Iniciar sesión [{una}_{1} \exp (\frac{(X - μ_{1})^{2}}{2 σ_{1}^{2}}) + {una}_{2} \exp (\frac{(X - μ_{2})^{2}}{2 σ_{2}^{2}})]

$-\log \mathcal{L}(x,\theta) = -\log\Big[ a_1 \exp\Big( \frac{(x-\mu_1)^2}{2\sigma_1^2}\Big) + a_2 \exp\Big(\frac{(x-\mu_2)^2}{2\sigma_2^2}\Big) \Big]$

Por el contrario, usando el algoritmo EM, primero "asignamos" cada muestra a un componente ( paso E ) y luego ajustamos (o maximizamos la probabilidad de) cada componente por separado ( paso M ). En este ejemplo, el paso M es simplemente una media ponderada para encontrar y . Iterar sobre estos dos pasos es una forma más simple y robusta de minimizar . $\mu_k$ $\sigma_k$ $-\log \mathcal{L}(x,\theta)$

usuario2304916
fuente

12

$X = (X_{1},...,X_{n})$ $f_{X|\Theta}(x|\theta)$

l (θ; X) = l o sol F_{X El | Θ} (X El | θ)

$l(\theta;X) = log f_{X|\Theta}(X|\theta)$

X

$X$

Y

$Y$

Z

$Z$

X = (Y, Z)

$X=(Y,Z)$

l_{o si s} (θ, Y) = l o sol \int F_{X El | Θ} (Y, z El | θ) ν_{z} (re z)

$l_{obs}(\theta,Y)=log \int f_{X|\Theta}(Y,z|\theta)\nu_{z}(dz)$

l_{o b s} (θ, Y)

$l_{obs}(\theta,Y)$

i

$i$

(i + 1)^{t h}

$(i + 1)^{th}$

Q (θ El | θ^{(yo)}) = {mi}_{θ^{(yo)}} [l (θ; X El | Y]

$Q(\theta|\theta^{(i)}) = E_{\theta^{(i)}}[l(\theta;X|Y]$

θ^{(i)}

$\theta^{(i)}$

Θ

$\Theta$

i^{t h}

$i^{th}$

Q (θ | θ^{(i)})

$Q(\theta|\theta^{(i)})$

θ

$\theta$

θ^{(i + 1)} = m a x Q (θ | θ^{i})

$\theta^{(i+1)} = max Q(\theta|\theta^{i})$ . Luego repita estos pasos hasta que el método converja en algún valor que será su estimación.

Si necesita más información sobre el método, sus propiedades, pruebas o aplicaciones, solo eche un vistazo al artículo Wiki correspondiente .

Andy
fuente

1

Sin embargo, +1 ... EM no es solo para el caso de valores faltantes.

Glen_b -Reinstale a Monica el

@Andy: Incluso considerando el caso de datos faltantes, todavía no entiendo por qué el uso de métodos numéricos genéricos para encontrar un punto donde las derivadas parciales son cero no funciona.

user782220

Gracias Glen, solo lo sabía en el contexto de valores perdidos / variables latentes. @ user782220: cuando no puede tener una solución de forma cerrada de la derivada de probabilidad de registro, establecer la derivada igual a cero no identificará su parámetro. Es por eso que utiliza métodos numéricos en este caso. Para una explicación y un ejemplo, vea la conferencia aquí: people.stat.sfu.ca/~raltman/stat402/402L5.pdf

Andy

1

EM se usa porque a menudo es inviable o imposible calcular directamente los parámetros de un modelo que maximiza la probabilidad de un conjunto de datos dado ese modelo.

TheGrimmCientífico
fuente

¿Por qué se utiliza el algoritmo de maximización de expectativas?

Respuestas: