¿Los antecedentes bayesianos se vuelven irrelevantes con un gran tamaño de muestra?

26

Al realizar la inferencia bayesiana, operamos maximizando nuestra función de probabilidad en combinación con los antecedentes que tenemos sobre los parámetros. Debido a que la probabilidad de registro es más conveniente, maximizamos efectivamente usando un MCMC o de otro modo que genera las distribuciones posteriores (usando un pdf para la probabilidad de cada parámetro y la probabilidad de cada punto de datos).ln(prior)+ln(likelihood)

Si tenemos muchos datos, la probabilidad de que eso supere cualquier información que proporcione el anterior, por matemática simple. En definitiva, esto es bueno y por diseño; sabemos que la parte posterior convergerá a la probabilidad con más datos porque se supone que debe hacerlo.

Para problemas definidos por anteriores conjugados, esto es incluso demostrable exactamente.

¿Hay alguna manera de decidir cuándo los antecedentes no importan para una función de probabilidad dada y algún tamaño de muestra?

píxeles
fuente
3
Tu primera oración no es correcta. La inferencia bayesiana y el algoritmo MCMC no maximizan la probabilidad.
niandra82
55
¿Está familiarizado con la probabilidad marginal, los factores de Bayes, la distribución predictiva previa / posterior, la verificación predictiva previa / posterior? Este es el tipo de cosas que usaría para comparar modelos en un Paradigma Bayesiano. Creo que esta pregunta se reduce a si el factor de Bayes, entre modelos que solo difieren en sus anteriores, convergerá a 1 a medida que el tamaño de la muestra llegue al infinito. También es posible que desee dejar de lado las prioridades que se truncan dentro del espacio de parámetros implícito en la probabilidad, ya que esto podría impedir que el objetivo converja a la estimación de probabilidad máxima.
Zachary Blumenfeld
@ZacharyBlumenfeld: ¡esto podría calificar como una respuesta adecuada!
Xi'an
¿Es la forma corregida "maximizando la regla de Bayes"? Además, los modelos con los que estoy trabajando están basados ​​físicamente, por lo que los espacios de parámetros truncados son una necesidad para el trabajo. (También estoy de acuerdo en que sus comentarios son probablemente una respuesta, ¿podría darlos a conocer @ZacharyBlumenfeld?)
píxeles

Respuestas:

37

No es tan fácil. La información en sus datos abruma la información previa, no solo el tamaño de su muestra es grande, sino cuando sus datos proporcionan suficiente información para abrumar la información anterior. Los antecedentes no informativos son fácilmente persuadidos por los datos, mientras que los altamente informativos pueden ser más resistentes. En casos extremos, con antecedentes mal definidos, es posible que sus datos no puedan superarlos (por ejemplo, densidad cero en alguna región).

Recuerde que, según el teorema de Bayes, utilizamos dos fuentes de información en nuestro modelo estadístico, fuera de los datos, información previa e información transmitida por los datos en función de probabilidad :

posterioranterior×probabilidad

Cuando utilizamos información previa no informativa (o máxima probabilidad), tratamos de aportar la mínima información previa posible a nuestro modelo. Con antecedentes informativos aportamos una cantidad sustancial de información al modelo. Entonces, tanto los datos como los anteriores, nos informan qué valores de los parámetros estimados son más plausibles o creíbles. Pueden aportar información diferente y cada uno de ellos puede dominar al otro en algunos casos.

Permítanme ilustrar esto con un modelo beta-binomial muy básico (ver aquí un ejemplo detallado ). Con un "no informativo" previo , una muestra bastante pequeña puede ser suficiente para dominarlo. En las gráficas a continuación, puede ver los anteriores (curva roja), la probabilidad (curva azul) y los posteriores (curva violeta) del mismo modelo con diferentes tamaños de muestra.

ingrese la descripción de la imagen aquí

Por otro lado, puede tener información previa que esté cerca del valor verdadero, que también sería fácil, pero no tan fácilmente como con el informativo semanal, persuadido por los datos.

ingrese la descripción de la imagen aquí

El caso es muy diferente con información previa, cuando está lejos de lo que dicen los datos (usando los mismos datos que en el primer ejemplo). En tal caso, necesita una muestra más grande para superar el anterior.

ingrese la descripción de la imagen aquí

Por lo tanto, no se trata solo del tamaño de la muestra, sino también de cuáles son sus datos y cuáles son sus datos anteriores. Tenga en cuenta que este es un comportamiento deseado , porque cuando utilizamos previos informativos queremos incluir potencialmente información fuera de los datos en nuestro modelo y esto sería imposible si las muestras grandes siempre descartan los anteriores.

Debido a las complicadas relaciones previas de probabilidad posterior, siempre es bueno observar la distribución posterior y hacer algunas verificaciones predictivas posteriores (Gelman, Meng y Stern, 1996; Gelman y Hill, 2006; Gelman et al, 2004). Además, según lo descrito por Spiegelhalter (2004), puede utilizar diferentes antecedentes, por ejemplo, "pesimista" que expresa dudas sobre los grandes efectos, o "entusiasta" que es optimista sobre los efectos estimados. Comparar cómo se comportan los anteriores diferentes con sus datos puede ayudar a evaluar informalmente el grado en que los anteriores influyeron en el posterior.


Spiegelhalter, DJ (2004). Incorporación de ideas bayesianas en la evaluación del cuidado de la salud. Ciencia estadística, 156-174.

Gelman, A., Carlin, JB, Stern, HS y Rubin, DB (2004). Análisis de datos bayesianos. Chapman & Hall / CRC.

Gelman, A. y Hill, J. (2006). Análisis de datos mediante regresión y modelos multinivel / jerárquicos. Prensa de la Universidad de Cambridge.

Gelman, A., Meng, XL y Stern, H. (1996). Evaluación predictiva posterior de la aptitud del modelo a través de discrepancias realizadas. Statistica sinica, 733-760.

Tim
fuente
2
Buena contribución, gracias Tim. Me gustaría agregar que el contraste que presenta tan bien aquí puede presentarse incluso dentro de un mismo modelo relacionado con diferentes parámetros de ese modelo. Puede haber algunos parámetros sobre los cuales los datos ofrecen información insignificante, en cuyo caso los antecedentes pueden servir críticamente para proporcionar restricciones de identificación .
David C. Norris
En la primera matriz de gráficos 3x3, ¿son correctos los gráficos? El posterior es completamente plano hasta e incluyendo n = 25?
MichiganWater
1
@MichiganWater cada colección de 9 parcelas usa la misma escala para el eje y para que los valores más grandes no salgan de la pantalla. Por lo tanto, son planos en el caso de que tenga más datos. Si "acercaste", no serán planos.
Tim
11

Al realizar la inferencia bayesiana, operamos maximizando nuestra función de probabilidad en combinación con los antecedentes que tenemos sobre los parámetros.

En realidad, esto no es lo que la mayoría de los practicantes consideran inferencia bayesiana. Es posible estimar parámetros de esta manera, pero no lo llamaría inferencia bayesiana.

La inferencia bayesiana usa distribuciones posteriores para calcular las probabilidades posteriores (o razones de probabilidades) para las hipótesis en competencia.

Las distribuciones posteriores se pueden estimar empíricamente mediante las técnicas Monte Carlo o Markov-Chain Monte Carlo (MCMC).

Dejando a un lado estas distinciones, la pregunta

¿Los antecedentes bayesianos se vuelven irrelevantes con un gran tamaño de muestra?

aún depende del contexto del problema y de lo que le importa.

Si lo que le interesa es la predicción dada una muestra ya muy grande, entonces la respuesta es generalmente sí, los anteriores son asintóticamente irrelevantes *. Sin embargo, si lo que le interesa es la selección de modelos y las pruebas de hipótesis bayesianas, entonces la respuesta es no, los antecedentes importan mucho y su efecto no se deteriorará con el tamaño de la muestra.

* Aquí, supongo que los antecedentes no están truncados / censurados más allá del espacio de parámetros implícito en la probabilidad, y que no están tan mal especificados como para causar problemas de convergencia con una densidad cercana a cero en regiones importantes. Mi argumento también es asintótico, que viene con todas las advertencias regulares.

Densidades predictivas

renorte=(re1,re2,...,renorte)reyoF(renorteθ)θ

π0 0(θλ1)π0 0(θλ2)λ1λ2

πnorte(θrenorte,λj)F(renorteθ)π0 0(θλj)Forj=1,2

θθnortejπnorte(θrenorte,λj)θ^norte=maxθ{F(renorteθ)}θnorte1θnorte2θ^norteθε>0 0

limnortePAGSr(El |θnortej-θEl |ε)=0 0j{1,2}limnortePAGSr(El |θ^norte-θEl |ε)=0 0

θnortej=maxθ{πnorte(θrenorte,λj)}

F(re~renorte,λj)=ΘF(re~θ,λj,renorte)πnorte(θλj,renorte)reθF(re~renorte,θnortej)F(re~renorte,θ)

Selección de modelo y prueba de hipótesis

Si uno está interesado en la selección del modelo bayesiano y la prueba de hipótesis, debe tener en cuenta que el efecto de lo anterior no desaparece asintóticamente.

F(renortemetrooremil)

Knorte=F(renortemetrooremil1)F(renortemetrooremil2)
PAGSr(metrooremiljrenorte)=F(renortemetrooremilj)PAGSr(metrooremilj)l=1LF(renortemetrooremill)PAGSr(metrooremill)

F(renorteλj)=ΘF(renorteθ,λj)π0 0(θλj)reθ

F(renorteλj)=norte=0 0norte-1F(renorte+1renorte,λj)
f(dN+1dN,λj) converges to f(dN+1dN,θ), but it is generally not true that f(dNλ1) converges to f(dNθ), nor does it converge to f(dNλ2). This should be apparent given the product notation above. While latter terms in the product will be increasingly similar, the initial terms will be different, because of this, the Bayes factor
f(dNλ1)f(dNλ2)p1
This is an issue if we wished to calculate a Bayes factor for an alternative model with different likelihood and prior. For example consider the marginal likelihood h(dNM)=Θh(dNθ,M)π0(θM)dθ; then
f(dNλ1)h(dNM)f(dNλ2)h(dNM)
asymptotically or otherwise. The same can be shown for posterior probabilities. In this setting the choice of the prior significantly effects the results of inference regardless of sample size.
Zachary Blumenfeld
fuente
5

Another issue to keep in mind is you can have a lot of data, but still have very little information about certain parameters in your model. In such cases, even a mildly informative prior can be extremely helpful when performing inference.

As a silly example, suppose you were comparing means of two groups and you had 1,000,000 samples of group 1 and 10 samples of group 2. Then clearly having an informative prior about group 2 can improve inference, even though you've collected over a million samples.

And while that example may be trivial, it starts to lead some very important implications. If we want to understand some complex phenomena, the smart thing to do is collect a lot of information regarding the parts we don't understand and less information about the parts we do understand. If we collect a lot of data in such a manner, throwing out the prior because we have a lot of data is a really bad choice; we've just set back our analysis because we didn't waste time collecting data on things we already know!

Cliff AB
fuente