MCMC con el algoritmo Metropolis-Hastings: elección de la propuesta

11

Necesito hacer una simulación para evaluar una integral de una función de 3 parámetros, decimos , que tiene una fórmula muy complicada. Se le pide que use el método MCMC para calcularlo e implementar el algoritmo Metropolis-Hastings para generar los valores distribuidos como , y se le sugirió utilizar una distribución normal propuesta como 3 normal. Al leer algunos ejemplos al respecto, he visto que algunos usan una normal con parámetros fijos y otros usan una media variable , donde es el último valor aceptado según lo distribuido según . Tengo algunas dudas sobre ambos enfoques:f N ( μ , σ ) N ( X , σ ) X fffN(μ,σ)N(X,σ)Xf

1) ¿Cuál es el significado de elegir el último valor aceptado como el nuevo medio de distribución de nuestra propuesta? Mi intuición dice que debería garantizar que nuestros valores estarán más cerca de los valores distribuidos como y las posibilidades de aceptación serían mayores. ¿Pero no concentra demasiado nuestra muestra? ¿Se garantiza que, si obtengo más muestras, la cadena se volverá estacionaria?f

2) ¿No elegir parámetros fijos (ya que la es realmente difícil de analizar) sería realmente difícil y dependiente de la primera muestra que debemos elegir para iniciar el algoritmo? En este caso, ¿cuál sería el mejor enfoque para encontrar cuál es mejor?f

¿Es uno de esos enfoques mejor que el otro o esto depende del caso?

Espero que mis dudas sean claras y me alegraría si se pudiera dar literatura (he leído algunos documentos sobre el tema, ¡pero más es mejor!)

¡Gracias por adelantado!

Giiovanna
fuente

Respuestas:

8

1) Podría considerar este método como un enfoque de caminata aleatoria. Cuando la distribución de la propuesta , se conoce comúnmente como el Algoritmo de Metrópolis. Si σ 2 es demasiado pequeño, tendrá una alta tasa de aceptación y explorará muy lentamente la distribución objetivo. De hecho, si σ 2 es demasiado pequeño y la distribución es multimodal, el muestreador puede atascarse en un modo particular y no podrá explorar completamente la distribución objetivo. Por otro lado, si σ 2xxtN(xt,σ2)σ2σ2σ2es demasiado grande, la tasa de aceptación será demasiado baja. Dado que tiene tres dimensiones, la distribución de su propuesta tendría una matriz de covarianza que probablemente requerirá diferentes variaciones y covarianzas para cada dimensión. Elegir un Σ apropiado puede ser difícil.ΣΣ

2) Si la distribución de su propuesta es siempre , entonces este es el algoritmo independiente de Metropolis-Hastings ya que la distribución de su propuesta no depende de su muestra actual. Este método funciona mejor si la distribución de su propuesta es una buena aproximación de la distribución objetivo de la que desea muestrear. Tiene razón en que elegir una buena aproximación normal puede ser difícil.N(μ,σ2)

El éxito de ninguno de los métodos debe depender del valor inicial de la muestra. No importa dónde comience, la cadena de Markov eventualmente debería converger a la distribución objetivo. Para verificar la convergencia, puede ejecutar varias cadenas desde diferentes puntos de partida y realizar un diagnóstico de convergencia como el diagnóstico de convergencia Gelman-Rubin.

jsk
fuente
No estoy seguro de que la declaración: "2) Si la distribución de su propuesta es siempre , entonces este es el algoritmo independiente de Metropolis-Hastings ya que la distribución de su propuesta no depende de su muestra actual:" es correcto porque no está tomando muestras de N ( μ , σ 2 ) simétrico y, por lo tanto, esto se llamaría más correctamente el algoritmo Metropolis, en lugar del algoritmo Metropolis-Hasting. No estoy del todo seguro, así que también estoy haciendo la pregunta. N(μ,σ2)N(μ,σ2)
rhody
@ rhody. El algoritmo Metropolis no elimina el condicionamiento en su ubicación actual. El objetivo es deambular lentamente por el espacio de parámetros con una propuesta simétrica desde su ubicación actual. Usando CUALQUIER propuesta simétrica que dependa de su ubicación actual y el cálculo de probabilidad de aceptación de Metrópolis, eventualmente convergerá a la distribución objetivo. Para el algoritmo independiente de Metropolis-Hastings, desea que la distribución de su propuesta sea una aproximación de la distribución objetivo, y utiliza un cálculo diferente para la probabilidad de aceptación.
jsk
@ rhody. Además, es cierto que la distribución normal es una distribución simétrica, pero ese no es el tipo de simetría mencionado aquí. Si q es la distribución de su propuesta, entonces la distribución de la propuesta es simétrica si q (Y | X) = q (X | Y). Si , entonces q no es simétrica porque q ( Y ) q ( X ) para todos X y Y . qN(μ,σ2)q(Y)q(X)XY
jsk
@jsk se considera simétrico, ¿verdad? xN(x,ε)
user76284