¿Qué son los controles predictivos posteriores y qué los hace útiles?

33

Entiendo cuál es la distribución predictiva posterior , y he estado leyendo sobre las comprobaciones predictivas posteriores , aunque todavía no tengo claro qué hace.

  1. ¿Qué es exactamente el control predictivo posterior?
  2. ¿Por qué algunos autores dicen que ejecutar verificaciones predictivas posteriores es "usar los datos dos veces" y no se debe abusar de ellas? (o incluso que no es bayesiano)? (por ejemplo, ver esto o esto )
  3. ¿Para qué es este cheque exactamente útil? ¿Realmente se puede utilizar para la selección del modelo? (por ejemplo, ¿tiene en cuenta la aptitud física y la complejidad del modelo?)
Amelio Vazquez-Reina
fuente

Respuestas:

36

Las comprobaciones predictivas posteriores son, en palabras simples, "simulando datos replicados bajo el modelo ajustado y luego comparándolos con los datos observados" ( Gelman y Hill, 2007, p. 158 ). Por lo tanto, utiliza predicción posterior para "buscar discrepancias sistemáticas entre datos reales y simulados" ( Gelman et al. 2004, p. 169 ).

El argumento sobre "usar los datos dos veces" es que usa sus datos para estimar el modelo y luego, para verificar si el modelo se ajusta a los datos, mientras que generalmente es una mala idea y sería mejor validar su modelo en datos externos , eso no se usó para la estimación.

Las comprobaciones predictivas posteriores son útiles para evaluar si su modelo le proporciona predicciones "válidas" sobre la realidad: ¿se ajustan o no a los datos observados? Es una fase útil de la construcción y verificación de modelos. No le da una respuesta definitiva sobre si su modelo está "bien" o si es "mejor" que otro modelo, sin embargo, puede ayudarlo a verificar si su modelo tiene sentido.

Esto se describe muy bien en LaplacesDemon vignette Inferencia Bayesiana :

La comparación de la distribución predictiva con los datos observados generalmente se denomina "verificación predictiva posterior". Este tipo de verificación incluye la incertidumbre asociada con los parámetros estimados del modelo, a diferencia de las estadísticas frecuentistas.yrepy

Las comprobaciones predictivas posteriores (a través de la distribución predictiva) implican un doble uso de los datos, lo que viola el principio de probabilidad. Sin embargo, se han hecho argumentos a favor de las comprobaciones predictivas posteriores, siempre que el uso se limite a las medidas de discrepancia para estudiar la adecuación del modelo, no para la comparación e inferencia del modelo (Meng 1994).

Gelman recomienda en el nivel más básico comparar con , buscando cualquier diferencia sistemática que pueda indicar posibles fallas del modelo (Gelman et al. 2004, p. 159). A menudo se recomienda primero comparar gráficas, como la distribución de e .yrepyyyrep

Tim
fuente
3
con respecto a su lado de que los PPC podrían no ser bayesianos, tenga en cuenta que Gelman discute mucho sobre qué es exactamente un análisis de datos bayesiano / bayesiano es Gelman y Shalizi
N Brouwer
2
Gelman y Shalizi discuten qué es el análisis de datos bayesianos según su punto de vista. Hay muchos puntos de vista diferentes, todos bien motivados, desde Jeffreys hasta Savage, desde De Finetti hasta Gaifman, Scott & Krauss y Hailperin , sin mencionar puntos de vista que difieren aún más, como el de Dempster-Shafer .
pglpm