Expectativa Maximización Aclaración

Encontré un tutorial muy útil sobre el algoritmo EM .

El ejemplo y la imagen del tutorial es simplemente brillante.

ingrese la descripción de la imagen aquí

Pregunta relacionada sobre el cálculo de probabilidades ¿cómo funciona la maximización de expectativas?

Tengo otra pregunta sobre cómo conectar la teoría descrita en el tutorial con el ejemplo.

Durante el paso E, EM elige una función que limita los límites todas partes, y para la cual . $g_t$ $\log P(x;\Theta)$ $g_t( \hat{\Theta}^{(t)}) = \log P(x; \hat{\Theta}^{(t)})$

Entonces, ¿qué $g_t$ en nuestro ejemplo, y parece que debería ser diferente para cada iteración?

Además, en el ejemplo $\hat{\Theta}_A^{(0)} = 0.6$ y $\hat{\Theta}_B^{(0)} = 0.5$ luego aplicándolos a los datos obtenemos que $\hat{\Theta}_A^{(1)} = 0.71$ y $\hat{\Theta}_B^{(1)} = 0.58$ . Lo que para mí parece contrario a lo intuitivo. Teníamos algunos supuestos anteriores, los aplicamos a los datos y obtenemos nuevos supuestos, por lo que los datos de alguna manera cambiaron los supuestos. No entiendo por qué $\hat{\Theta}^{(0)}$ no es igual a $\hat{\Theta}^{(1)}$ .

Además, surgen más preguntas cuando ve la Nota complementaria 1 de este tutorial. Por ejemplo, qué es en nuestro caso. No me queda claro por qué la desigualdad es estrecha cuando $Q(z)$ $Q(z)=P(z|x;\Theta)$

Gracias.

machine-learning clustering algorithms natural-language usuario16168
fuente

Encontré estas notas muy útiles para descubrir lo que estaba sucediendo en el material complementario.

Contestaré estas preguntas un poco fuera de orden por continuidad.

Primero: ¿por qué es eso?

$\theta^{(0)} \ne \theta^{(1)}$

La razón es que nuestra función se elige de modo que se garantice que sea menor o igual que , siendo el 2 incidente en el punto de nuestra suposición inicial . Si nuestras suposiciones anteriores fueran conjeturas iniciales perfectas, entonces sería correcto y cambiaría. Pero podemos encontrar valores más altos en la función creada , por lo que se garantiza que nuestra próxima iteración del parámetro para sea más probable que nuestra original. $g_0$ $\log(P(x;\theta))$ $\theta^{(0)}$ $\theta^{(1)}$ $g_0$ $\theta$

Segundo: ¿por qué la desigualdad es apretada cuando

Q (z) = P (z | x; θ)

$Q(z) = P(z|x;\theta)$

Hay una pista en las notas al pie sobre esto donde dice:

la igualdad se cumple si y solo si la variable aleatoria es constante con probabilidad 1 (es decir, ) $y=E[y]$

lo que implica que nuestra elección de hace que constante. Para ver esto, considere que: $Q$ $\frac{P(x, z; \theta)}{Q(z)}$

P (x, z; θ) = P (z | x; θ) P (x; θ)

$P(x, z ; \theta) = P(z | x; \theta) P(x; \theta)$

lo que hace que nuestra fracción

\frac{P (z | x; θ) P (x; θ)}{P (z | x; θ)} = P (x; θ)

$\frac{P(z | x; \theta) P(x; \theta)}{P(z|x;\theta)} = P(x; \theta)$

Entonces, ¿qué es y es constante? Bien, considere que estamos calculando las sumas sobre para las cuales este término es independiente (constante). Represéntelo como y esa ecuación se convierte en: $P(x; \theta)$ $z$ $C$

\log (\sum_{z} Q (z) C) \geq \sum_{z} Q (z) \log (C)

$\log{\big( \sum_z{Q(z)C} \big)} \ge \sum_z{Q(z)\log(C)}$

desde aquí podemos ver bastante rápido que los 2 lados son iguales, ya que la expectativa de una constante será esa constante sin importar los pesos (la ) $Q(z)$

Por último: qué es $g_t$

La respuesta dada en las notas que vinculé es ligeramente diferente de la de las notas complementarias, pero difieren solo por una constante y la estamos maximizando, por lo que no es importante. El que está en las notas (con derivación) es:

g_{t} (θ) = \log (P (x | θ^{(t)})) + \sum_{z} P (z | x; θ^{(t)}) \log (\frac{P (x | z; θ) P (z | θ)}{P (z | x; θ^{(t)}) P (x | θ^{(t)})})

$g_t(\theta) = \log(P(x|\theta^{(t)})) + \sum_z{P(z|x;\theta^{(t)})\log{\big( \frac{P(x|z;\theta)P(z|\theta)}{P(z|x;\theta^{(t)})P(x|\theta^{(t)})} \big)}}$

Esta fórmula compleja no se trata extensamente en las notas complementarias, probablemente porque muchos de estos términos serán constantes que se desecharán cuando maximicemos. Si está interesado en cómo llegamos aquí en primer lugar, le recomiendo las notas que vinculé.

Usando un argumento similar al que se hizo en la respuesta a la segunda pregunta, el término en el registro es igual a 1 para por lo que el término suma desaparece y como se esperaba. $g_t(\theta^{(t)})$ $g_t(\theta^{(t)}) = \log P(x|\theta^{(t)})$

Miguel
fuente

Expectativa Maximización Aclaración

Respuestas: