Acabo de empezar a construir modelos en Stan ; para familiarizarme con la herramienta, estoy trabajando en algunos de los ejercicios en Bayesian Data Analysis (2nd ed.). El ejercicio Waterbuck supone que los datos , con ( N , θ ) desconocido. Desde hamiltoniano Monte Carlo no permite parámetros discretos, he declarado N como un verdadero ∈ [ 72 , ∞ ) y se codificaron una distribución binomial de valor real usando ellbeta
función.
Un histograma de los resultados parece prácticamente idéntico al que encontré al calcular la densidad posterior directamente. Sin embargo, me preocupa que pueda haber algunas razones sutiles por las que no debería confiar en estos resultados en general; Dado que la inferencia de valor real en asigna probabilidad positiva a valores no enteros, sabemos que estos valores son imposibles, ya que en realidad no existe un waterbuck fraccional. Por otro lado, los resultados parecen estar bien, por lo que la simplificación parecería no tener ningún efecto en la inferencia en este caso.
¿Existen principios rectores o reglas generales para modelar de esta manera, o este método de "promoción" es un parámetro discreto para una práctica realmente mala?
fuente
Respuestas:
En primer lugar, siéntase libre de hacer preguntas como esta en nuestra lista de usuarios ( http://mc-stan.org/mailing-lists.html ) donde discutiremos no solo temas relacionados con las implementaciones / optimizaciones / etc de Stan, sino también estadísticas prácticas y preguntas de modelado.
En cuanto a su pregunta, es absolutamente un buen enfoque. Hay muchas maneras de justificarlo de manera más rigurosa (por ejemplo, observando la divergencia entre el CDF discreto y su aproximación continua), pero básicamente siempre que su varianza sea mayor que unas pocas veces la unidad, entonces la discretización faltante realmente no tendrá efecto sobre inferencias posteriores.
Este tipo de aproximación es omnipresente, un ejemplo común es la aproximación de una distribución multinomial como producto de distribuciones independientes de Poisson que luego se aproximan como distribuciones gaussianas.
fuente