Entiendo que no deberíamos permitir que el mismo conjunto de datos que estamos analizando conduzca / defina cómo se verían las distribuciones anteriores en un análisis bayesiano. Específicamente, no es apropiado definir distribuciones previas para un análisis bayesiano basado en estadísticas resumidas del mismo conjunto de datos en el que luego usará las anteriores para ayudar a ajustar un modelo.
¿Alguien sabe de recursos que específicamente discuten esto como inapropiado? Necesito algunas citas para este problema.
Respuestas:
Sí, esto es inapropiado porque usa los mismos datos dos veces, lo que lleva a resultados falsamente confiados. Esto se conoce como 'doble inmersión'.
Para referencias, comenzaría con Carlin y Louis (2000). Aunque 'doble inmersión' ha sido una de las principales críticas de Empirical Bayes, Ch. 3, en particular la sección 3.5 de este libro, describe formas de estimar los intervalos de confianza apropiados utilizando el enfoque EB.
Berger J (2006). \ El caso del análisis bayesiano objetivo. "Análisis bayesiano, 1 (3), 385 {402
Bradley P. Carlin, Thomas A. Louis 2000. Métodos Bayes y Bayes empíricos para el análisis de datos.
Darniede, WF 2011. Métodos bayesianos para prioridades dependientes de datos. Tesis de Maestría, Ohio State Univ.
Gelman, A., Carlin, JB, Stern, HS y Rubin, DB (2003), Bayesian Data Analysis, Second Edition (Chapman & Hall / CRC Texts in Statistical Science), Chapman y Hall / CRC, 2nd ed.
fuente
Sin embargo, puede tener sentido usar los datos para construir el anterior.
Para ver un ejemplo de modelado de mezclas, vea Richardson y Green (1997): http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667
Utilizan la media y el rango de los puntos de datos como hiperparámetros para lo anterior y tiene mucho sentido.
El problema de usar los datos dos veces ocurre cuando un previo informativo se deriva de los datos, en mi opinión.
Siempre y cuando compruebe que su distribución anterior es "plana" donde la distribución posterior alcanza su punto máximo, entonces sabe que su distribución anterior no tiene un fuerte impacto en los resultados.
fuente