Encontré estas notas muy útiles para descubrir lo que estaba sucediendo en el material complementario.
Contestaré estas preguntas un poco fuera de orden por continuidad.
Primero: ¿por qué es eso?
θ(0)≠θ(1)
La razón es que nuestra función se elige de modo que se garantice que sea menor o igual que , siendo el 2 incidente en el punto de nuestra suposición inicial . Si nuestras suposiciones anteriores fueran conjeturas iniciales perfectas, entonces sería correcto y cambiaría. Pero podemos encontrar valores más altos en la función creada , por lo que se garantiza que nuestra próxima iteración del parámetro para sea más probable que nuestra original.g0log(P(x;θ))θ(0)θ(1)g0θ
Segundo: ¿por qué la desigualdad es apretada cuando
Q(z)=P(z|x;θ)
Hay una pista en las notas al pie sobre esto donde dice:
la igualdad se cumple si y solo si la variable aleatoria es constante con probabilidad 1 (es decir, )y=E[y]
lo que implica que nuestra elección de hace que constante. Para ver esto, considere que:QP(x,z;θ)Q(z)
P(x,z;θ)=P(z|x;θ)P(x;θ)
lo que hace que nuestra fracción
P(z|x;θ)P(x;θ)P(z|x;θ)=P(x;θ)
Entonces, ¿qué es y es constante? Bien, considere que estamos calculando las sumas sobre para las cuales este término es independiente (constante). Represéntelo como y esa ecuación se convierte en:P(x;θ)zC
log(∑zQ(z)C)≥∑zQ(z)log(C)
desde aquí podemos ver bastante rápido que los 2 lados son iguales, ya que la expectativa de una constante será esa constante sin importar los pesos (la )Q(z)
Por último: qué esgt
La respuesta dada en las notas que vinculé es ligeramente diferente de la de las notas complementarias, pero difieren solo por una constante y la estamos maximizando, por lo que no es importante. El que está en las notas (con derivación) es:
gt(θ)=log(P(x|θ(t)))+∑zP(z|x;θ(t))log(P(x|z;θ)P(z|θ)P(z|x;θ(t))P(x|θ(t)))
Esta fórmula compleja no se trata extensamente en las notas complementarias, probablemente porque muchos de estos términos serán constantes que se desecharán cuando maximicemos. Si está interesado en cómo llegamos aquí en primer lugar, le recomiendo las notas que vinculé.
Usando un argumento similar al que se hizo en la respuesta a la segunda pregunta, el término en el registro es igual a 1 para por lo que el término suma desaparece y como se esperaba.gt(θ(t))gt(θ(t))=logP(x|θ(t))