Poner un previo en el parámetro de concentración en un proceso de Dirichlet

9

La mayor parte de esto es de fondo, salte al final si ya sabe lo suficiente sobre las mezclas de proceso de Dirichlet . Supongamos que estoy modelando algunos datos como provenientes de una mezcla de procesos de Dirichlet, es decir, deje que y condicional en supongaF Y i i i d f ( y | θ ) F ( d θ ) .FD(αH)F

Yiiidf(y|θ)F(dθ).

Aquí y es la medida base previa. Resulta que si para cada observación , si conozco el latente asociado , la probabilidad de en este modelo es donde es el número de valores distintos de (la medida aleatoria es discreta casi con seguridad). Escobar y West desarrollan el siguiente esquema para muestrear usando un Gamma previo; primero escribenα H Y i θ i α L ( α | t ) α t Γ ( α )α>0αHYiθiα tθiFαπ(α|t)π(α)αtΓ(α)

L(α|t)αtΓ(α)Γ(α+n)
tθiFα
π(α|t)π(α)αtΓ(α)Γ(α+n)π(α)αt1(α+n)B(α+1,n)=π(α)αt1(α+n)01xα(1x)n1 dx,
donde es la función beta. Luego, tenga en cuenta que si introducimos un parámetro latente entonces la probabilidad tiene la forma de una mezcla de distribuciones Gamma y la usamos para escribir una muestra de Gibbs.X Beta ( α + 1 , n )B(,)XBeta(α+1,n)

Ahora mi pregunta. ¿Por qué no podemos simplemente escribir y en lugar de utilizar una mezcla de distribuciones Gamma, ¿utiliza una única distribución Gamma? Si presentamos ¿no debería ser capaz de hacer lo mismo pero sin necesidad de usar la mezcla?

L(α|t)αtΓ(α)Γ(α+n)=αtΓ(n)Γ(α)Γ(α+n)Γ(n)=αtB(α,n)Γ(n)αt01xα1(1x)n1 dx,
XBeta(α,n)

Editar para obtener más detalles Más detalles: para completar algunos huecos, el argumento en Escobar y West es que, dejando que tenga una distribución Gamma con forma y signifique , y así podemos introducir una latente para queLos condicionales completos son una distribución para y una mezcla de a y aαaa/b

π(α|t)αa+t2(α+n)ebα01xα(1x)n1 dx
X
π(α,x|t)αa+t2(α+n)ebαxα(1x)n1.
Beta(α+1,n)XG(a+t,blog(x))G(a+t1,blog(x)) para .α

Por el mismo argumento, obtuve el mismo resultado pero con para y para . Esto me parece más fácil; ¿Por qué no hacen eso?Beta(α,n)XG(a+t,blog(x))α

chico
fuente

Respuestas:

3

No veo cómo lo que has escrito es fundamentalmente diferente de Escobar y West.

π(α|t)π(α)π(t|α)=π(α)L(α|t)π(α)αtΓ(α)Γ(α+n)π(α)αtΓ(α)Γ(n)Γ(α+n)=π(α)αtB(α,n)=π(α)αt1(α+n)B(α+1,n)
donde la penúltima línea es como la tienes y la última línea es como E&W y son iguales desde n) \ end {eqnarray *} recordando que Γ(z+1)=zΓ(z)
αB(α,n)=αΓ(α)Γ(n)Γ(α+n)=(αΓ(α))Γ(n)(α+n)(Γ(α+n)(α+n))=(α+n)Γ(α+1)Γ(n)Γ(α+n+1)=(α+n)B(α+1,n)
Γ(z+1)=zΓ(z) .

Supongo que prefirieron su formulación sobre la suya porque solo tiene el término de función Beta, no el producto de una Beta y una Gamma, pero podría estar equivocado. No seguí el último bit que escribiste, ¿podrías ser más explícito sobre tu esquema de muestreo?

Daniel Johnson
fuente
Se agregaron detalles adicionales en mi publicación.
chico