Antecedentes: actualmente estoy haciendo algún trabajo comparando varios modelos jerárquicos bayesianos. Los datos son medidas numéricas de bienestar para el participante i y el tiempo j . Tengo alrededor de 1000 participantes y de 5 a 10 observaciones por participante.
Al igual que con la mayoría de los conjuntos de datos longitudinales, espero ver alguna forma de autocorrelación mediante la cual las observaciones que están más cercanas en el tiempo tienen una mayor correlación que las que están más separadas. Simplificando algunas cosas, el modelo básico es el siguiente:
donde estoy comparando un modelo sin retraso:
con un modelo de retraso:
donde es una media a nivel de persona y β 1 es el parámetro de retraso (es decir, el efecto de retraso agrega un múltiplo de la desviación de la observación desde el punto de tiempo anterior desde el valor predicho de ese punto de tiempo). También tuve que hacer algunas cosas para estimar y i 0 (es decir, observación antes de la primera observación).
Los resultados que obtengo indican que:
- El parámetro de retraso es alrededor de .18, IC 95% [.14, .21]. Es decir, no es cero
- La desviación media y la DIC aumentan en varios cientos cuando el retraso se incluye en el modelo
- Las comprobaciones predictivas posteriores muestran que al incluir el efecto de retraso, el modelo puede recuperar mejor la autocorrelación en los datos
En resumen, el parámetro de retraso distinto de cero y las comprobaciones predictivas posteriores sugieren que el modelo de retraso es mejor; Sin embargo, la desviación media y la DIC sugieren que el modelo sin retraso es mejor. Esto me desconcierta.
Mi experiencia general es que si agrega un parámetro útil, al menos debería reducir la desviación media (incluso si después de una penalización de complejidad el DIC no mejora). Además, un valor de cero para el parámetro de retraso alcanzaría la misma desviación que el modelo sin retraso.
Pregunta
¿Por qué agregar un efecto de retraso podría aumentar la desviación media en un modelo jerárquico bayesiano incluso cuando el parámetro de retraso no es cero y mejora las comprobaciones predictivas posteriores?
Pensamientos iniciales
- He realizado muchas comprobaciones de convergencia (p. Ej., Mirando traceplots; examinando la variación en los resultados de desviación entre cadenas y entre corridas) y ambos modelos parecen haber convergido en la parte posterior.
- Hice una verificación de código donde forcé el efecto de retraso a cero, y esto recuperó las desviaciones del modelo sin retraso.
- También miré la desviación media menos la penalización que debería producir desviación en los valores esperados, y esto también hizo que el modelo de retraso pareciera peor.
- Quizás haya algún problema con la forma en que he estimado el punto temporal implícito antes de la primera observación.
- Quizás el efecto de retraso sea débil en estos datos.
- Intenté estimar el modelo usando una probabilidad máxima usando
lme
concorrelation=corAR1()
. La estimación del parámetro de retraso fue muy similar. En este caso, el modelo de retraso tenía una probabilidad de registro más grande y un AIC más pequeño (en aproximadamente 100) que uno sin retraso (es decir, sugirió que el modelo de retraso era mejor). Entonces esto reforzó la idea de que agregar el retraso también debería reducir la desviación en el modelo bayesiano. - Quizás haya algo especial en los residuos bayesianos. Si el modelo de retraso usa la diferencia entre y predicho y real en el punto de tiempo anterior, entonces esta cantidad será incierta. Por lo tanto, el efecto de retraso operará durante un intervalo creíble de tales valores residuales.
fuente
Respuestas:
Aquí están mis pensamientos:
Vayamos un paso más allá: tome el modelo que no considera el efecto de retraso (c) y calcule su probabilidad marginal . A continuación, tome su clase de modelo (d) que incorpora el efecto de retraso y tiene un previo en el parámetro de retraso; Calcule la probabilidad marginal de (d). Es de esperar que (d) tenga una probabilidad marginal mayor . ¿Y qué, si no lo haces ?:
(1) La probabilidad marginal considera la clase modelo como un todo. Esto incluye el efecto de retraso, el número de parámetros, la probabilidad, el previo.
(2) La comparación de modelos que tienen un número diferente de parámetros siempre es delicada, si existe una incertidumbre considerable respecto de los parámetros adicionales.
(3) Si especifica la incertidumbre en el previo de su parámetro de retraso irrazonablemente grande, penaliza a toda la clase de modelo.
(4) ¿Cuál es la información que respalda probabilidades iguales para retrasos negativos y para un retraso positivo? Creo que es muy poco probable observar un retraso negativo, y esto debería incorporarse en el caso anterior.
(5) El previo que eligió en su parámetro de retraso es uniforme. Por lo general, esto nunca es una buena opción: ¿está absolutamente seguro de que sus parámetros realmente deben estar dentro de los límites especificados? ¿Cada valor de retraso dentro de los límites realmente tiene la misma probabilidad? Mi sugerencia: vaya con una distribución beta (si está seguro de que el retraso está limitado; o con el log-normal si puede excluir valores menores que cero .
(6) Este es un ejemplo particular, donde el uso de antecedentes no informativos no es bueno (observando la probabilidad marginal ): siempre favorecerá el modelo que tiene un número menor de parámetros inciertos; no importa qué tan bueno o malo pueda hacer el modelo con más parámetros.
Espero que mis pensamientos te den nuevas ideas, ¿pistas?
fuente