Tamaño de muestra efectivo para la inferencia posterior del muestreo de MCMC

13

Al obtener muestras de MCMC para hacer inferencia sobre un parámetro en particular, ¿cuáles son buenas guías para la cantidad mínima de muestras efectivas a las que se debe apuntar?

Y, ¿cambia este consejo a medida que el modelo se vuelve más o menos complejo?

Matt Albrecht
fuente
Supongo que probablemente dependerá de la "constante" en la error, que variará entre los modelos. O(n12)
Probabilidadlogística

Respuestas:

15

La pregunta que hace es diferente de "diagnóstico de convergencia". Digamos que ha ejecutado todos los diagnósticos de convergencia (elija su (s) favorito (s)), y ahora está listo para comenzar a tomar muestras desde la parte posterior.

Hay dos opciones en términos de tamaño de muestra efectivo (ESS): puede elegir un ESS univariado o un ESS multivariado. Un ESS univariante proporcionará un tamaño de muestra efectivo para cada parámetro por separado, y los métodos conservadores dictan que elija la estimación más pequeña. Este método ignora todas las correlaciones cruzadas entre los componentes. Esto es probablemente lo que la mayoría de la gente ha estado usando durante un tiempo.

Recientemente, se introdujo una definición multivariada de ESS. El ESS multivariante devuelve un número para el tamaño de muestra efectivo para las cantidades que desea estimar; y lo hace contabilizando todas las correlaciones cruzadas en el proceso. Personalmente, prefiero ESS multivariante. Suponga que está interesado en el vector de medias de la distribución posterior. El mESS se define de la siguiente manera mESS = n ( | Λ |p aquí

mESS=n(|Λ||Σ|)1/p.
  1. es la estructura de covarianza de la parte posterior (también la covarianza asintótica en el CLT si tenía muestras independientes)Λ
  2. es la matriz de covarianza asintótica en la cadena CLT de Markov (diferente de Λ ya que las muestras están correlacionadas.ΣΛ
  3. es el número de cantidades que se estiman (o en este caso, la dimensión de la parte posterior.p
  4. Es el determinante.||

mESS se puede estimar utilizando la matriz de covarianza de muestra para estimar y el lote significa matriz de covarianza para estimar Σ . Esto ha sido codificado en la función en el paquete R mcmcse .ΛΣmultiESS

Este artículo reciente proporciona un límite inferior teóricamente válido del número de muestras efectivas requeridas. Antes de la simulación, debes decidir

  1. ϵϵ
  2. α
  3. p

mESS22/pπ(pΓ(p/2))2/pχ1α,p2ϵ2,

Γ()minESS

p=2095%ϵ=.05

> minESS(p = 20, alpha = .05, eps = .05)
[1] 8716

Esto es cierto para cualquier problema (en condiciones de regularidad). La forma en que este método se adapta de un problema a otro es que mezclar lentamente las cadenas de Markov toma más tiempo para alcanzar ese límite inferior, ya que el MESS será más pequeño. Así que ahora puede verificar un par de veces usando multiESSsi su cadena de Markov ha alcanzado ese límite; si no, ve y toma más muestras.

Greenparker
fuente
(+1) Excelente respuesta. ¿Sabes si la función multiESSha sido codificada para otros idiomas, como MATLAB? (¿o sería difícil reimplementar?)
lacerbi
1
Σ
1
Σ
1
@lacerbi Me alegra que hayas podido codificarlo en Matlab. Si es posible, responda a este comentario cuando esté listo, para que pueda usarlo. Gracias
Greenparker
1
Mi implementación MATLAB de multiESS está disponible aquí . Es una versión que funciona, aunque necesitaría más pruebas (no estoy familiarizado con R, de lo contrario lo compararía con la implementación de R).
lacerbi
2

La convergencia depende de varias cosas: el número de parámetros, el modelo en sí, el algoritmo de muestreo, los datos ...

Sugeriría evitar cualquier regla general y emplear un par de herramientas de diagnóstico de convergencia para detectar el número apropiado de iteraciones de quemado y adelgazamiento en cada ejemplo específico. Véase también http://www.johnmyleswhite.com/notebook/2010/08/29/mcmc-diagnostics-in-r-with-the-coda-package/, http://users.stat.umn.edu/~geyer/mcmc/diag.html.

Monte Cristo
fuente