Entiendo dónde ocurre el paso E en el algoritmo (como se explica en la sección matemática a continuación). En mi opinión, el ingenio clave del algoritmo es el uso de la desigualdad de Jensen para crear un límite inferior a la probabilidad logarítmica. En ese sentido, tomar Expectation
simplemente se hace para reformular la probabilidad logarítmica para encajar en la desigualdad de Jensen (es decir, para la función cóncava).
¿Hay alguna razón por la que se llama el E-step? ¿Hay algún significado para lo que estamos esperando (es decir, ? Siento que me falta algo de intuición detrás de por qué la Expectativa es tan central, en lugar de simplemente ser incidental para el uso de la desigualdad de Jensen.
EDITAR: Un tutorial dice:
El nombre 'E-step' proviene del hecho de que generalmente no es necesario formar la distribución de probabilidad sobre las terminaciones explícitamente, sino que solo necesita calcular estadísticas suficientes 'esperadas' sobre estas terminaciones.
¿Qué significa "uno no necesita formar la distribución de probabilidad sobre terminaciones explícitamente"? ¿Cómo sería esa distribución de probabilidad?
Apéndice: E-step en el algoritmo EM
Respuestas:
Las expectativas son fundamentales para el algoritmo EM. Para empezar, la probabilidad asociada con los datos se representa como una expectativa donde la expectativa es en términos de la distribución marginal del vector latente .(X1, ... ,Xnorte)
La intuición detrás de EM también se basa en una expectativa. Dado que no se puede optimizar directamente, mientras que puede, pero depende de la ' no observada , la idea es maximizar en su lugar la probabilidad de registro completa esperadaIniciar sesiónp (X1, ... ,Xnorte; θ ) Iniciar sesiónp (X1, ... ,Xnorte,z1, ... ,znorte; θ ) zyo
fuente
La respuesta de Xi'an es muy buena, solo una extensión con respecto a la edición.
Como no se observa el valor de , estimamos una distribución para cada punto de datos partir de los datos no observados. La función Q es la suma de las probabilidades de registro esperadas sobrez qX( z) X qX( z)
completions
Lo mencionadop ( x , zEl | θ) Q ( θ )
probability distribution over completions
debe referirse a . Para algunas distribuciones (especialmente la familia exponencial, ya que la probabilidad está en su forma de registro), solo tenemos que conocer la probabilidad esperada (en lugar de la probabilidad esperada) para calcular y maximizar .sufficient statistics
Hay una muy buena introducción en el Capítulo 19.2 de Modelos Gráficos Probabilísticos.
fuente