¿"Olvido" de lo anterior en el entorno bayesiano?

Es bien sabido que a medida que tiene más evidencia (por ejemplo, en forma de ejemplos más grandes de para iid), el prior bayesiano se "olvida", y la evidencia afecta la mayor parte de la inferencia (o la probabilidad). $n$ $n$

Es fácil verlo para varios casos específicos (como Bernoulli con Beta anterior u otro tipo de ejemplos), pero hay una forma de verlo en el caso general con y algunos ? $x_1,\ldots,x_n \sim p(x|\mu)$ $p(\mu)$

EDITAR: Supongo que no se puede mostrar en el caso general para ningún previo (por ejemplo, un punto de masa anterior mantendría el posterior como un punto de masa). Pero quizás hay ciertas condiciones bajo las cuales se olvida un prior.

Aquí está el tipo de "camino" que estoy pensando en mostrar algo así:

Suponga que el espacio del parámetro es , y deje que y sean dos anteriores que coloquen una masa de probabilidad distinta de cero en todo . Entonces, los dos cálculos posteriores para cada anterior ascienden a: $\Theta$ $p(\theta)$ $q(\theta)$ $\Theta$

p (θ | x_{1}, \dots, x_{n}) = \frac{\prod_{i} p (x_{i} | θ) p (θ)}{\int_{θ} \prod_{i} p (x_{i} | θ) p (θ) d θ}

$p(\theta | x_1,\ldots,x_n) = \frac{\prod_i p(x_i | \theta) p(\theta)}{\int_{\theta} \prod_i p(x_i | \theta) p(\theta) d\theta}$

q (θ | x_{1}, \dots, x_{n}) = \frac{\prod_{i} p (x_{i} | θ) q (θ)}{\int_{θ} \prod_{i} p (x_{i} | θ) q (θ) d θ}

$q(\theta | x_1,\ldots,x_n) = \frac{\prod_i p(x_i | \theta) q(\theta)}{\int_{\theta} \prod_i p(x_i | \theta) q(\theta) d\theta}$

Si divide por (las posteriores), obtiene: $p$ $q$

p (θ | x_{1}, \dots, x_{n}) / q (θ | x_{1}, \dots, x_{n}) = \frac{p (θ) \int_{θ} \prod_{i} p (x_{i} | θ) q (θ) d θ}{q (θ) \int_{θ} \prod_{i} p (x_{i} | θ) p (θ) d θ}

$p(\theta | x_1,\ldots,x_n)/q(\theta | x_1,\ldots,x_n) = \frac{p(\theta)\int_{\theta} \prod_i p(x_i | \theta) q(\theta)d \theta}{q(\theta)\int_{\theta} \prod_i p(x_i | \theta) p(\theta)d \theta}$

Ahora me gustaría explorar el término anterior cuando va a . Idealmente, iría a para un determinado que "tiene sentido" o algún otro comportamiento agradable, pero no puedo entender cómo mostrar nada allí. $n$ $\infty$ $1$ $\theta$

bayesian prior bayesianOrFrequentist
fuente

Para cierta intuición, tenga en cuenta que la probabilidad aumenta con el tamaño de la muestra, mientras que el anterior no.

Macro

@Macro, gracias, también tuve esa intuición, pero no pude seguir adelante. Ver mis ediciones arriba.

bayesianOrFrequentist

Los primeros capítulos del libro de texto Bayesian Non parametrics de Ghosh y Ramamoorthi explican el tipo de cosas de las que está hablando (al principio en un entorno paramétrico, luego no paramétrico); está disponible a través de Springer en línea de forma gratuita si se encuentra en una institución adecuada. Existen múltiples formas de formalizar la falta de dependencia del asintótico anterior, pero, por supuesto, hay algunas condiciones de regularidad.

chico

Tenga en cuenta que la relación posterior es solo proporcional a la relación anterior, por lo que la razón de probabilidad o evidencia no influye realmente en esto.

probabilidadislogica

Respuestas:

Solo una respuesta aproximada, pero con suerte intuitiva.

Míralo desde el punto de vista del espacio logarítmico: donde es una constante que depende de los datos, pero no del parámetro, y donde sus probabilidades asumen las observaciones. Por lo tanto, solo concéntrese en la parte que determina la forma de su posterior, es decir,
$- \log P (θ | x_{1}, \dots, x_{n}) = - \log P (θ) - \sum_{i = 1}^{n} \log P (x_{i} | θ) - C_{n}$ $-\log P(\theta|x_1, \ldots, x_n) = -\log P(\theta) -\sum_{i=1}^n \log P(x_i|\theta) - C_n$ $C_n>0$ $S_{n} = - \log P (θ) - \sum_{i = 1}^{n} \log P (x_{i} | θ)$ $S_n = -\log P(\theta) -\sum_{i=1}^n \log P(x_i|\theta)$
Supongamos que hay un tal que . Esto es razonable para distribuciones discretas. $D>0$ $-\log P(\theta) \leq D$
Como los términos son todos positivos, "crecerá" (me estoy saltando los tecnicismos aquí). Sin embargo, la contribución de la anterior está limitado por . Por lo tanto, la fracción aportada por el previo, que es a lo sumo , disminuye monotónicamente con cada observación adicional. $S_n$ $D$ $D/S_n$

Por supuesto, las pruebas rigurosas tienen que enfrentar los tecnicismos (y pueden ser muy difíciles), pero la configuración anterior es, en mi humilde opinión, la parte más básica.

Pedro A. Ortega
fuente

Estoy algo confundido por lo que se supone que significan las declaraciones del "prior se olvida" y "la evidencia afecta la mayor parte de la inferencia". Supongo que quiere decir que a medida que aumenta la cantidad de datos, la (secuencia de) estimador (es) se aproxima al valor verdadero del parámetro independientemente de nuestro previo.

Suponiendo algunas condiciones de regularidad en la forma de la distribución posterior, los Estimadores de Bayes son consistentes y asintóticamente insesgados (ver Gelman et al, capítulo 4 ). Esto significa que a medida que aumenta el tamaño de la muestra, el estimador de Bayes se aproxima al valor verdadero del parámetro. La coherencia significa que el estimador de Bayes converge en probabilidad al valor del parámetro verdadero y la imparcialidad asintótica significa que, suponiendo que es el valor verdadero del parámetro, $\theta_0$

\frac{E [\hat{θ} | θ_{0}] - θ_{0}}{\sqrt{V a r (\hat{θ})}} \overset{p}{\to} 0

$\frac{E[\hat{\theta}|\theta_0]-\theta_0}{\sqrt{\mathrm{Var}(\hat{\theta})}}\overset{p}\rightarrow0$

La convergencia no depende de la forma específica del previo, sino solo de que la distribución posterior obtenida del anterior y la probabilidad satisfacen las condiciones de regularidad.

La condición de regularidad más importante mencionada en Gelman et al es que la probabilidad sea una función continua del parámetro y que el verdadero valor del parámetro esté en el interior del espacio del parámetro. Además, como notó, la parte posterior debe ser distinta de cero en un vecindario abierto del valor verdadero del valor verdadero del parámetro. Por lo general, su prioridad debe ser distinta de cero en todo el espacio de parámetros.

caburke
fuente

Gracias, muy perspicaz. En realidad esperaba un resultado que ni siquiera se relacionara con el valor del parámetro "verdadero". Solo mostrando que técnicamente, a medida que tiene más evidencia, la parte posterior que va a obtener es la misma independientemente de la anterior con la que comenzó. Voy a hacer algunas ediciones para reflejar eso.

bayesianOrFrequentist

@bayesianOrFrequentist Eche un vistazo al llamado teorema del límite central bayesiano .

Stéphane Laurent