Bayes variadas combinadas con Monte Carlo

10

Estoy leyendo sobre Bayes variacional, y según tengo entendido, todo se reduce a la idea de que aproximas (donde son las variables latentes de tu modelo los datos observados) con una función , suponiendo que factoriza como donde es un subconjunto de las variables latentes. Entonces se puede demostrar que el factor óptimo es: p(zx)zxq(z)qqi(zi)ziqi(zi)

qi(zi)=lnp(x,z)z/i+const.

Donde los corchetes angulares denotan la expectativa sobre todas las variables latentes, excepto zi con respecto a la distribución q(z) .

Ahora, esta expresión generalmente se evalúa analíticamente, para dar una respuesta exacta a un valor objetivo aproximado. Sin embargo, se me ocurrió que, dado que esto es una expectativa, un enfoque obvio es aproximar esta expectativa por muestreo. Esto le daría una respuesta aproximada a una función objetivo aproximada, pero lo convierte en un algoritmo muy simple, tal vez para casos en los que el enfoque analítico no es factible.

Mi pregunta es, ¿ es este un enfoque conocido ? Eso tiene un nombre? ¿Hay razones por las que podría no funcionar tan bien o no producir un algoritmo tan simple?

Peter
fuente
Creo que el mayor problema será la subestimación de la incertidumbre que normalmente producen las aproximaciones VB.
probabilidadislogica

Respuestas:

4

Confieso que este no es un dominio que conozco muy bien, así que tómalo con un grano de sal.

En primer lugar, tenga en cuenta que lo que está proponiendo no produce un algoritmo tan simple: para calcular el nuevo , no necesitamos calcular un solo valor esperado (como una media o varianza), pero El valor esperado de una función completa. Esto es computacionalmente difícil y requerirá que usted aproxime la verdadera por alguna (por ejemplo, podríamos encontrar una aproximación de histograma)qiqq~

Pero, si va a restringir el a una pequeña familia paramétrica, una mejor idea podría ser usar el descenso de gradiente estocástico para encontrar los mejores valores de parámetros (ver: Inferencia bayesiana variacional con búsqueda estocástica, 2012, Paisley, Blei, Jordania ) El gradiente que calculan es muy similar al que usted escribió: toman muestras de todas las aproximaciones que actualmente no están optimizando.qi

Entonces, lo que propone no es tan simple, pero está bastante cerca de un método real que se ha propuesto recientemente

Guillaume Dehaene
fuente