¿Cómo derivar el muestreo de Gibbs?

11

De hecho, estoy dudando en preguntar esto, porque me temo que me remitirán a otras preguntas o a Wikipedia sobre el muestreo de Gibbs, pero no tengo la sensación de que describan lo que está a la mano.

Dada una probabilidad condicional : p ( x | y ) y = y 0 y = y 1 x = x 0 1p(x|y)

p(x|y)y=y0y=y1x=x01426x=x13446

Y una probabilidad condicional : p ( y | x ) y = y 0 y = y 1 x = x 0 1p(y|x)

p(y|x)y=y0y=y1x=x01323x=x13747

Podemos llegar únicamente a la probabilidad conjunta :funique=p(x,y)

p(x,y)y=y0y=y1p(x)x=x0a0a1c0x=x1a2a3c1p(y)b0b1

842+3

a0+a1+a2+a3=1b0+b1=1c0+c1=1

Tanto como:

14b0=a034b0=a226(1b0)=a146(1b0)=a313c0=a023c0=a137(1c0)=a247(1c0)=a3

c0=34b023c0=a124b0=a126(1b0)=a1b0=25

p(x,y)y=y0y=y1p(x)x=x0110210310x=x1310410710p(y)410610

Entonces, ahora vamos al caso continuo. Es imaginable ir a intervalos y mantener intacta la estructura anterior (con más ecuaciones que incógnitas). Sin embargo, ¿qué sucede cuando vamos a (punto) instancias de variables aleatorias? ¿Cómo funciona el muestreo?

xap(x|y=yb)ybp(y|x=xa)

p(x,y)a0+a1+a2+a3=1XYp(x,y)dydx=1Yp(y|x)dy=1. ¿Podemos anotar las restricciones y derivar el muestreo de Gibbs a partir de los primeros principios?

Por lo tanto, no estoy interesado en cómo realizar el muestreo de Gibbs, que es simple, pero estoy interesado en cómo derivarlo y, preferiblemente, en cómo demostrar que funciona (probablemente bajo ciertas condiciones).

Anne van Rossum
fuente

Respuestas:

9

p(x)p(x)=ip(xix<i,x>i)p(xix<i,x>i),
x

p irreducible y aperiódica , entonces la cadena de Markov convergerá a esa distribución (Tierney, 1994) .

(x0,y0)p(x0,y0)x1p(x1y0)

(x1,y0)p(x0,y0)p(x1y0)dx0=p(x1y0)p(y0)=p(x1,y0).

Es decir, actualizar x

p(x)>0

Lucas
fuente
Interesante problema de compatibilidad. Ahora estoy marcando "Compatibilidad de distribuciones condicionales discretas finitas" (Song et al.) Que usan una "matriz de razones" para establecer la compatibilidad y la unicidad. Por lo tanto, Gibbs no puede derivarse de estas restricciones porque, para empezar, no se aplican. Me imagino que podría devolver una distribución conjunta incorrecta (suma> 1) si las distribuciones condicionales son incompatibles, por ejemplo. De alguna manera, sin embargo, tengo la sensación de que lo que estoy haciendo es algo determinista, algo similar a la transformación del radón. El muestreo de Gibbs se ve tan ... sucio.
Anne van Rossum el