Al realizar la inferencia bayesiana, operamos maximizando nuestra función de probabilidad en combinación con los antecedentes que tenemos sobre los parámetros. Debido a que la probabilidad de registro es más conveniente, maximizamos efectivamente usando un MCMC o de otro modo que genera las distribuciones posteriores (usando un pdf para la probabilidad de cada parámetro y la probabilidad de cada punto de datos).
Si tenemos muchos datos, la probabilidad de que eso supere cualquier información que proporcione el anterior, por matemática simple. En definitiva, esto es bueno y por diseño; sabemos que la parte posterior convergerá a la probabilidad con más datos porque se supone que debe hacerlo.
Para problemas definidos por anteriores conjugados, esto es incluso demostrable exactamente.
¿Hay alguna manera de decidir cuándo los antecedentes no importan para una función de probabilidad dada y algún tamaño de muestra?
Respuestas:
No es tan fácil. La información en sus datos abruma la información previa, no solo el tamaño de su muestra es grande, sino cuando sus datos proporcionan suficiente información para abrumar la información anterior. Los antecedentes no informativos son fácilmente persuadidos por los datos, mientras que los altamente informativos pueden ser más resistentes. En casos extremos, con antecedentes mal definidos, es posible que sus datos no puedan superarlos (por ejemplo, densidad cero en alguna región).
Recuerde que, según el teorema de Bayes, utilizamos dos fuentes de información en nuestro modelo estadístico, fuera de los datos, información previa e información transmitida por los datos en función de probabilidad :
Cuando utilizamos información previa no informativa (o máxima probabilidad), tratamos de aportar la mínima información previa posible a nuestro modelo. Con antecedentes informativos aportamos una cantidad sustancial de información al modelo. Entonces, tanto los datos como los anteriores, nos informan qué valores de los parámetros estimados son más plausibles o creíbles. Pueden aportar información diferente y cada uno de ellos puede dominar al otro en algunos casos.
Permítanme ilustrar esto con un modelo beta-binomial muy básico (ver aquí un ejemplo detallado ). Con un "no informativo" previo , una muestra bastante pequeña puede ser suficiente para dominarlo. En las gráficas a continuación, puede ver los anteriores (curva roja), la probabilidad (curva azul) y los posteriores (curva violeta) del mismo modelo con diferentes tamaños de muestra.
Por otro lado, puede tener información previa que esté cerca del valor verdadero, que también sería fácil, pero no tan fácilmente como con el informativo semanal, persuadido por los datos.
El caso es muy diferente con información previa, cuando está lejos de lo que dicen los datos (usando los mismos datos que en el primer ejemplo). En tal caso, necesita una muestra más grande para superar el anterior.
Por lo tanto, no se trata solo del tamaño de la muestra, sino también de cuáles son sus datos y cuáles son sus datos anteriores. Tenga en cuenta que este es un comportamiento deseado , porque cuando utilizamos previos informativos queremos incluir potencialmente información fuera de los datos en nuestro modelo y esto sería imposible si las muestras grandes siempre descartan los anteriores.
Debido a las complicadas relaciones previas de probabilidad posterior, siempre es bueno observar la distribución posterior y hacer algunas verificaciones predictivas posteriores (Gelman, Meng y Stern, 1996; Gelman y Hill, 2006; Gelman et al, 2004). Además, según lo descrito por Spiegelhalter (2004), puede utilizar diferentes antecedentes, por ejemplo, "pesimista" que expresa dudas sobre los grandes efectos, o "entusiasta" que es optimista sobre los efectos estimados. Comparar cómo se comportan los anteriores diferentes con sus datos puede ayudar a evaluar informalmente el grado en que los anteriores influyeron en el posterior.
Spiegelhalter, DJ (2004). Incorporación de ideas bayesianas en la evaluación del cuidado de la salud. Ciencia estadística, 156-174.
Gelman, A., Carlin, JB, Stern, HS y Rubin, DB (2004). Análisis de datos bayesianos. Chapman & Hall / CRC.
Gelman, A. y Hill, J. (2006). Análisis de datos mediante regresión y modelos multinivel / jerárquicos. Prensa de la Universidad de Cambridge.
Gelman, A., Meng, XL y Stern, H. (1996). Evaluación predictiva posterior de la aptitud del modelo a través de discrepancias realizadas. Statistica sinica, 733-760.
fuente
En realidad, esto no es lo que la mayoría de los practicantes consideran inferencia bayesiana. Es posible estimar parámetros de esta manera, pero no lo llamaría inferencia bayesiana.
La inferencia bayesiana usa distribuciones posteriores para calcular las probabilidades posteriores (o razones de probabilidades) para las hipótesis en competencia.
Las distribuciones posteriores se pueden estimar empíricamente mediante las técnicas Monte Carlo o Markov-Chain Monte Carlo (MCMC).
Dejando a un lado estas distinciones, la pregunta
aún depende del contexto del problema y de lo que le importa.
Si lo que le interesa es la predicción dada una muestra ya muy grande, entonces la respuesta es generalmente sí, los anteriores son asintóticamente irrelevantes *. Sin embargo, si lo que le interesa es la selección de modelos y las pruebas de hipótesis bayesianas, entonces la respuesta es no, los antecedentes importan mucho y su efecto no se deteriorará con el tamaño de la muestra.
* Aquí, supongo que los antecedentes no están truncados / censurados más allá del espacio de parámetros implícito en la probabilidad, y que no están tan mal especificados como para causar problemas de convergencia con una densidad cercana a cero en regiones importantes. Mi argumento también es asintótico, que viene con todas las advertencias regulares.
Densidades predictivas
Selección de modelo y prueba de hipótesis
Si uno está interesado en la selección del modelo bayesiano y la prueba de hipótesis, debe tener en cuenta que el efecto de lo anterior no desaparece asintóticamente.
fuente
Another issue to keep in mind is you can have a lot of data, but still have very little information about certain parameters in your model. In such cases, even a mildly informative prior can be extremely helpful when performing inference.
As a silly example, suppose you were comparing means of two groups and you had 1,000,000 samples of group 1 and 10 samples of group 2. Then clearly having an informative prior about group 2 can improve inference, even though you've collected over a million samples.
And while that example may be trivial, it starts to lead some very important implications. If we want to understand some complex phenomena, the smart thing to do is collect a lot of information regarding the parts we don't understand and less information about the parts we do understand. If we collect a lot of data in such a manner, throwing out the prior because we have a lot of data is a really bad choice; we've just set back our analysis because we didn't waste time collecting data on things we already know!
fuente