Es bien sabido que a medida que tiene más evidencia (por ejemplo, en forma de ejemplos más grandes de para iid), el prior bayesiano se "olvida", y la evidencia afecta la mayor parte de la inferencia (o la probabilidad).
Es fácil verlo para varios casos específicos (como Bernoulli con Beta anterior u otro tipo de ejemplos), pero hay una forma de verlo en el caso general con y algunos ?
EDITAR: Supongo que no se puede mostrar en el caso general para ningún previo (por ejemplo, un punto de masa anterior mantendría el posterior como un punto de masa). Pero quizás hay ciertas condiciones bajo las cuales se olvida un prior.
Aquí está el tipo de "camino" que estoy pensando en mostrar algo así:
Suponga que el espacio del parámetro es , y deje que y sean dos anteriores que coloquen una masa de probabilidad distinta de cero en todo . Entonces, los dos cálculos posteriores para cada anterior ascienden a:
y
Si divide por (las posteriores), obtiene:
Ahora me gustaría explorar el término anterior cuando va a . Idealmente, iría a para un determinado que "tiene sentido" o algún otro comportamiento agradable, pero no puedo entender cómo mostrar nada allí.
Respuestas:
Solo una respuesta aproximada, pero con suerte intuitiva.
Míralo desde el punto de vista del espacio logarítmico: donde es una constante que depende de los datos, pero no del parámetro, y donde sus probabilidades asumen las observaciones. Por lo tanto, solo concéntrese en la parte que determina la forma de su posterior, es decir,
Supongamos que hay un tal que . Esto es razonable para distribuciones discretas.D>0 −logP(θ)≤D
Como los términos son todos positivos, "crecerá" (me estoy saltando los tecnicismos aquí). Sin embargo, la contribución de la anterior está limitado por . Por lo tanto, la fracción aportada por el previo, que es a lo sumo , disminuye monotónicamente con cada observación adicional.Sn D D/Sn
Por supuesto, las pruebas rigurosas tienen que enfrentar los tecnicismos (y pueden ser muy difíciles), pero la configuración anterior es, en mi humilde opinión, la parte más básica.
fuente
Estoy algo confundido por lo que se supone que significan las declaraciones del "prior se olvida" y "la evidencia afecta la mayor parte de la inferencia". Supongo que quiere decir que a medida que aumenta la cantidad de datos, la (secuencia de) estimador (es) se aproxima al valor verdadero del parámetro independientemente de nuestro previo.
Suponiendo algunas condiciones de regularidad en la forma de la distribución posterior, los Estimadores de Bayes son consistentes y asintóticamente insesgados (ver Gelman et al, capítulo 4 ). Esto significa que a medida que aumenta el tamaño de la muestra, el estimador de Bayes se aproxima al valor verdadero del parámetro. La coherencia significa que el estimador de Bayes converge en probabilidad al valor del parámetro verdadero y la imparcialidad asintótica significa que, suponiendo que es el valor verdadero del parámetro,θ0
La convergencia no depende de la forma específica del previo, sino solo de que la distribución posterior obtenida del anterior y la probabilidad satisfacen las condiciones de regularidad.
La condición de regularidad más importante mencionada en Gelman et al es que la probabilidad sea una función continua del parámetro y que el verdadero valor del parámetro esté en el interior del espacio del parámetro. Además, como notó, la parte posterior debe ser distinta de cero en un vecindario abierto del valor verdadero del valor verdadero del parámetro. Por lo general, su prioridad debe ser distinta de cero en todo el espacio de parámetros.
fuente