¿Permitir que los datos dicten los anteriores y luego ejecutar el modelo utilizando estos anteriores? (p. ej., anteriores basados ​​en datos del mismo conjunto de datos)

9

Entiendo que no deberíamos permitir que el mismo conjunto de datos que estamos analizando conduzca / defina cómo se verían las distribuciones anteriores en un análisis bayesiano. Específicamente, no es apropiado definir distribuciones previas para un análisis bayesiano basado en estadísticas resumidas del mismo conjunto de datos en el que luego usará las anteriores para ayudar a ajustar un modelo.

¿Alguien sabe de recursos que específicamente discuten esto como inapropiado? Necesito algunas citas para este problema.

sarah
fuente

Respuestas:

11

Sí, esto es inapropiado porque usa los mismos datos dos veces, lo que lleva a resultados falsamente confiados. Esto se conoce como 'doble inmersión'.

Para referencias, comenzaría con Carlin y Louis (2000). Aunque 'doble inmersión' ha sido una de las principales críticas de Empirical Bayes, Ch. 3, en particular la sección 3.5 de este libro, describe formas de estimar los intervalos de confianza apropiados utilizando el enfoque EB.

Berger J (2006). \ El caso del análisis bayesiano objetivo. "Análisis bayesiano, 1 (3), 385 {402

Bradley P. Carlin, Thomas A. Louis 2000. Métodos Bayes y Bayes empíricos para el análisis de datos.

Darniede, WF 2011. Métodos bayesianos para prioridades dependientes de datos. Tesis de Maestría, Ohio State Univ.

Gelman, A., Carlin, JB, Stern, HS y Rubin, DB (2003), Bayesian Data Analysis, Second Edition (Chapman & Hall / CRC Texts in Statistical Science), Chapman y Hall / CRC, 2nd ed.

David LeBauer
fuente
@sarah Registre su cuenta para poder reclamar su pregunta. Solo visite esta url: stats.stackexchange.com/users/login
1

Sin embargo, puede tener sentido usar los datos para construir el anterior.

Para ver un ejemplo de modelado de mezclas, vea Richardson y Green (1997): http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667

Utilizan la media y el rango de los puntos de datos como hiperparámetros para lo anterior y tiene mucho sentido.

El problema de usar los datos dos veces ocurre cuando un previo informativo se deriva de los datos, en mi opinión.

Siempre y cuando compruebe que su distribución anterior es "plana" donde la distribución posterior alcanza su punto máximo, entonces sabe que su distribución anterior no tiene un fuerte impacto en los resultados.

Pierre
fuente
El uso de los datos para construir lo anterior no puede tener lugar dentro del paradigma bayesiano. Por lo tanto, no tiene sentido desde una perspectiva bayesiana y la validación habitual de los procedimientos bayesianos no se aplica. La inferencia resultante puede ser perfectamente válida, pero hay que demostrarla desde los primeros principios. (Richardson y Green usan lo que se llama Bayes empírico. Que no es un procedimiento bayesiano.)
Xi'an
Si bien no tiene sentido dentro del paradigma bayesiano, a veces la línea de división entre lo que son datos y lo que es anterior es difícil de trazar. Vea mi respuesta a stats.stackexchange.com/questions/112451/…
kjetil b halvorsen