Pregunta sobre cómo usar EM para estimar los parámetros de este modelo

8

Estoy tratando de entender EM e intentando inferir los parámetros de este modelo usando esta técnica, pero tengo problemas para entender cómo comenzar:

Entonces, tengo un modelo de regresión lineal ponderado de la siguiente manera donde tengo observaciones y las observaciones correspondientes . El modelo de la relación entre e es un modelo de regresión lineal ponderado y los supuestos de distribución son los siguientes:X=(xi,x2....xn)Y=(y1,y2....yn)XY

yiN(βTxi,σ2wi)
βN(0,Σβ)
wiG(a,b)

Aquí son los parámetros de regresión y el modelo permite variaciones desiguales al hacer que las variables de respuesta tengan pesos individuales sobre la variación. Mi objetivo es encontrar la relación lineal más probable dada por los parámetros .ββ

Entonces, ahora puedo escribir el log-posterior de la siguiente manera:

logP(Y,β,w|X)=i=1n(logP(yi|xi,β,wi)+logP(wi))+logP(β)

Ahora, he estado tratando de entender EM y no estoy seguro de que mi comprensión aún esté completa, pero tal como lo entiendo, para comenzar a estimar los parámetros, empiezo tomando la expectativa de la distribución log-posterior con respecto a los parámetros latentes / ocultos que en mi caso son y . Entonces este valor esperado requerido será:logP(Y,β,w|X)βw

P(β,w|X)logP(Y,β,w|X)dwdβ

Sin embargo, no tengo idea de cómo proceder desde aquí para calcular esta expectativa. Agradecería cualquier sugerencia sobre cuál debería ser el siguiente paso. No estoy buscando a alguien que me dé todas las cosas necesarias, sino solo un empujón en la dirección correcta sobre lo que debería buscar resolver en los próximos pasos.

Luca
fuente
¿estás seguro de que EM como en Expectation-Maximization se aplica a tu problema?
Xi'an
Creo que sí. Estoy tratando de entender un artículo y usan EM para resolver este problema de regresión lineal bayesiana ponderada.
Luca
Las variables latentes no pueden ser y las 's. Si está interesado en , las variables latentes son probablemente las 's. En cuyo caso, debe encontrar la función de log-verosimilitud completa esperada del paso E y optimizarla en en el paso M. βwiβwiQ(β|β0)β
Xi'an
Gracias por tu comentario. Si puedo intentar aclarar, el documento menciona que estamos interesados ​​en maximizar la probabilidad de registro incompleta pero trabajamos con la probabilidad de datos completa dada por: , que para mí se parecía a la distribución posterior en esta configuración. Entonces, supuse que está siendo tratado como una variable oculta en esta configuración. logp(Y|X)logP(y,w,β|X)β
Luca
2
¿Cuánto sabes sobre el algoritmo EM? ¿Qué libro o papel has estudiado al respecto? Comenzar desde cero en un foro como este parece una mala idea.
Xi'an

Respuestas:

3

Permítanme recordar primero los conceptos básicos del algoritmo EM. Al buscar la estimación de probabilidad máxima de una probabilidad de la forma

f(x,z|β)dz,
el algoritmo continúa maximizando iterativamente (M) las probabilidades de registro completas (E) esperadas, lo que resulta en la maximización (en β) en la iteración t la función
Q(β|βi)=logf(x,z|β)f(z|x,βt)dz
Por lo tanto, el algoritmo debe comenzar identificando la variable latente z y su distribución condicional.

En su caso, parece que la variable latente es ϖ hecho de la wimientras que el parámetro de interés es β. Si procesas ambosβ y ϖcomo variables latentes no queda parámetro para optimizar. Sin embargo, esto también significa que lo anterior enβ No se utiliza.

Si miramos más precisamente el caso de wi, su distribución condicional viene dada por

f(wi|xi,yi,β)wiexp{wi(yiβTxi)2/2σ2}×wia1exp{bwi}
que califica como un
G(a+1/2,b+(yiβTxi)2/2σ2)
distribución.

El log-verosimilitud completado es

i12{log(wi)wi(yiβTxi)2/σ2}
la parte que depende de β simplifica como
iwi(yiβTxi)2/2σ2
y la función Q(β|βt) es proporcional a
E[iwi(yiβTxi)2|X,Y,βt]=iE[wi|X,Y,βt](yiβTxi)2=ia+1/2b+(yiβtTxi)2/2σ2(yiβTxi)2
Maximizando esta función en β equivale a una regresión lineal ponderada, con pesos
a+1/2b+(yiβtTxi)2/2σ2
Xi'an
fuente
Gracias por esto y lo superaré rigurosamente. Sin embargo, este trabajo que estoy viendo trataβcomo una variable oculta también Mencionan que toman la expectativa con la forma aproximada de posteriorQ(β,w) aproximándolo como Q(w)Q(β). Así que este bit me tiene realmente confundido ...
Luca
1
Si tratas a ambos β y wcomo variables latentes, no queda ningún parámetro ...
Xi'an
1
Quizás lo que tienen domo es la estimación MAP en lugar de la estimación ML. Si intento reformular esto como la estimación MAP, supongo que la distribución previa deβentraría en juego?
Luca
1
Una cosa muy rápida ... No estoy seguro si ve esto, pero cuando tiene la ecuación para la probabilidad de registro completa, es el primer término no log(wi)? Además, supongo que el término que muestra es el log-verosimilitud proporcional a una constante. Siempre me confundo con esto cuando las cosas se enrollan en constantes.
Luca
1
corrección hecha: pongo 1/2delante de toda la expresión.
Xi'an