¿Se pueden usar las iteraciones de MCMC después de la grabación para estimar la densidad?

10

Después del quemado, ¿podemos usar directamente las iteraciones de MCMC para la estimación de densidad, como trazar un histograma o una estimación de densidad del núcleo? Mi preocupación es que las iteraciones de MCMC no son necesariamente independientes, aunque a lo sumo están distribuidas de manera idéntica.

¿Qué sucede si seguimos aplicando adelgazamiento a las iteraciones de MCMC? Mi preocupación es que las iteraciones de MCMC no están correlacionadas, y aún no son independientes.

El fundamento que aprendí para usar una función de distribución empírica como una estimación de la función de distribución verdadera se basa en el teorema de Glivenko-Cantelli , donde la función de distribución empírica se calcula en función de una muestra iid. Parecía ver algunos motivos (¿resultados asintóticos?) Para usar histogramas, o estimaciones de densidad del núcleo como estimaciones de densidad, pero no puedo recordarlas.

Tim
fuente

Respuestas:

8

Usted puede, y la gente lo hace, estimar las densidades del muestreo de MCMC.

Una cosa a tener en cuenta es que, si bien los histogramas y los KDE son convenientes, al menos en casos simples (como el muestreo de Gibbs), pueden estar disponibles estimaciones de densidad mucho más eficientes .

Si consideramos el muestreo de Gibbs en particular, la densidad condicional de la que está tomando muestras se puede usar en lugar del valor de la muestra en sí para producir una estimación promedio de la densidad. El resultado tiende a ser bastante suave.

El enfoque se discute en

Gelfand y Smith (1990), "Enfoques basados ​​en muestreo para calcular las densidades marginales"
Journal of the American Statistical Association , vol. 85, núm. 410, págs. 398-409

(aunque Geyer advierte que si la dependencia de la muestra es lo suficientemente alta, no siempre reduce la varianza y da condiciones para que lo haga)

Este enfoque también se discute, por ejemplo, en Robert, CP y Casella, G. (1999) Métodos estadísticos de Monte Carlo .

No necesitas independencia, en realidad estás calculando un promedio. Si desea calcular un error estándar de una estimación de densidad (o un cdf), debe tener en cuenta la dependencia.

La misma noción se aplica a otras expectativas, por supuesto, por lo que puede usarse para mejorar las estimaciones de muchos otros tipos de promedio.

Glen_b -Reinstate a Monica
fuente
¡Gracias! ¿Quiere decir que, dado que las distribuciones marginales son expectativas con respecto a la distribución conjunta, no importa usar iteraciones MCMC correlacionadas para estimar distribuciones marginales? ¿Qué sucede si se utilizan las iteraciones correlacionadas para estimar la distribución conjunta? ¿Todavia bien?
Tim
No, eso es lo que quiero decir. Quiero decir que los estimadores con los que estamos tratando son promedios de cosas, y se están utilizando para estimar cantidades de población que a su vez pueden interpretarse como expectativas de esas cosas. Sí, puede usar dibujos dependientes para estimar una distribución conjunta en el mismo sentido.
Glen_b -Reinstalar a Monica
¿Por qué podemos usar las iteraciones correlacionadas para estimar la distribución conjunta? Creo que no, porque la distribución conjunta no es la expectativa de algo. Tenga en cuenta que en el teorema de Glivenko-Cantelli, el cdf empírico se calcula en la muestra iid.
Tim
Para la densidad, podría considerar algo como la estimación de la muestra descrita aquí, por ejemplo (y podría considerarse como el límite de un histograma con contenedores cada vez más estrechos); Es un promedio, y creo que su expectativa es la densidad. Con respecto al cdf, es posible que desee considerar si puede hacer algo con el cdf empírico para hacerlo en forma de promedio. Ambas ideas parecen funcionar con muestras de una distribución conjunta.
Glen_b -Reinstalar Monica
3

Currículum

Puede usar directamente las iteraciones de MCMC para cualquier cosa porque el valor promedio de su observable se acercará asintóticamente al valor verdadero (porque está después del quemado).

Sin embargo, tenga en cuenta que la varianza de este promedio está influenciada por las correlaciones entre las muestras. Esto significa que si las muestras están correlacionadas, como es común en MCMC, almacenar cada medición no traerá ninguna ventaja real.

En teoría, debe medir después de N pasos, donde N es del orden del tiempo de autocorrelación del observable que está midiendo.

Explicación detallada

Definamos alguna notación para responder formalmente a su pregunta. Deje que sea ​​el estado de su simulación MCMC en el tiempo , asumido mucho más alto que el tiempo de quemado. Deje ser el observable que desea medir.xttf

Por ejemplo, , y : "1 if , 0 else". se extrae de una distribución , que se hace con MCMC.xtRf=fa(x)x[a,a+Δ]xtP(x)

En cualquier muestreo, siempre necesitará calcular un promedio de una observable , lo que hace usando un estimador:f

F=1Ni=1Nf(xi)

Vemos que el valor promedio de este estimador (con respecto a ) esFP(x)

F=1Ni=1Nf(xi)=f(x)

que es lo que quieres obtener

La principal preocupación es que cuando calcula la varianza de este estimador, , obtendrá los términos de la formaF2F2

i=1Nj=1Nf(xi)f(xj)

que no se cancelan si son muestras correlacionadas. Además, como puede escribir , puede escribir la suma doble anterior como suma de la función de autocorrelación dextj=i+ΔfR(Δ)

Entonces, para recapitular:

  • Si computacionalmente no cuesta nada almacenar cada medida, puede hacerlo, pero tenga en cuenta que la varianza no se puede calcular utilizando la fórmula habitual.

  • ττ

Jorge Leitao
fuente
n
La reducción es solo un desperdicio de datos útiles No reduce la varianza de la estimación. Vea los comentarios a esta pregunta: stats.stackexchange.com/a/258529/58675
DeltaIV
@DeltaIV, sí. Mi punto aquí fue que el adelgazamiento o no, la escala de tiempo relevante sigue siendo el tiempo de autocorrelación.
Jorge Leitao