Diagnóstico residual en modelos de regresión basados ​​en MCMC

21

Recientemente me embarqué en ajustar modelos mixtos de regresión en el marco bayesiano, utilizando un algoritmo MCMC (función MCMCglmm en R en realidad).

Creo que he entendido cómo diagnosticar la convergencia del proceso de estimación (traza, diagrama de Geweke, autocorrelación, distribución posterior ...).

Una de las cosas que me llama la atención en el marco bayesiano es que parece que se dedica mucho esfuerzo a hacer esos diagnósticos, mientras que parece que se hace muy poco en términos de verificar los residuos del modelo ajustado. Por ejemplo, en MCMCglmm, la función residual.mcmc () existe, pero en realidad aún no está implementada (es decir, devuelve: "residuales aún no implementados para objetos MCMCglmm"; misma historia para predic.mcmc ()). Parece que también le faltan otros paquetes, y en general se discute poco en la literatura que he encontrado (aparte de DIC, que también se discute bastante).

¿Alguien podría señalarme algunas referencias útiles, e idealmente el código R con el que podría jugar o modificar?

Muchas gracias.

Rossinante
fuente
Gran pregunta Realmente me gusta el papel de Andrew Gelman con Cosma Shalizi sobre la verificación de modelos bayesianos.
David J. Harris

Respuestas:

7

Creo que el uso del término residual no es consistente con la regresión bayesiana. Recuerde, en los modelos de probabilidad frecuentista, son los parámetros los que se consideran cantidades estimables fijas y el mecanismo de generación de datos tiene algún modelo de probabilidad aleatorio asociado con los datos observados. Para los bayesianos, los parámetros de los modelos de probabilidad se consideran variables y los datos fijos actualizan nuestra creencia sobre cuáles son esos parámetros. Por lo tanto, si estaba calculando la varianza de los valores ajustados menos observados en un modelo de regresión, el valor observadoel componente tendría una varianza 0, mientras que el componente ajustado variaría en función de la densidad de probabilidad posterior para los parámetros del modelo. Esto es lo contrario de lo que derivaría del modelo de regresión frecuentista. Creo que si uno estuviera interesado en verificar los supuestos probabilísticos de su modelo de regresión bayesiana, una simple gráfica QQ de la densidad posterior de las estimaciones de parámetros (estimadas a partir de nuestro muestreo MCMC) versus una distribución normal tendría un poder de diagnóstico análogo al análisis de residuos (o residuos de Pearson para funciones de enlace no lineales).

AdamO
fuente
1
Esta es una buena respuesta. Puede que aún haya respuestas que den construcciones bayesianas útiles calculadas a partir del residual observado menos ajustado, pero esta ciertamente no debería haber sido rechazada.
ely
3
Además, podría valer la pena aclarar que en la configuración bayesiana realmente no tiene valores "ajustados". Puede calcular la media posterior para una entrada observada dada, para obtener la estimación máxima a posteriori del valor esperado de la variable objetivo en esa entrada. Pero esto reduciría todo a estimaciones puntuales, lo que generalmente no se desea si se hace inferencia bayesiana.
ely
2
@EMS cualquiera de esos son residuos significativos. El hecho de que uno sea bayesiano no significa que no se pueda verificar si los supuestos se reflejan en los datos.
Glen_b -Reinstate Monica
1
Para la inferencia probabilística exacta (supuestos de normalidad en el lugar) en el contexto frecuentista, los "residuos" serían, en las réplicas del experimento de estudio, condicionalmente independientes del "valor ajustado" (o media condicional). En el mundo de Bayes, los datos no son aleatorios, entonces, ¿qué sería condicionalmente independiente de qué?
AdamO
1
mi[YEl |X]XY