¿Por qué el arranque de los residuos de un modelo de efectos mixtos produce intervalos de confianza anti-conservadores?

11

Normalmente trato con datos en los que se miden múltiples individuos cada uno de ellos en 2 o más condiciones. Recientemente he estado jugando con el modelado de efectos mixtos para evaluar la evidencia de diferencias entre condiciones, modeladoindividual como un efecto aleatorio. Para visualizar la incertidumbre con respecto a las predicciones de dicho modelado, he estado usando bootstrapping, donde en cada iteración del bootstrap, tanto los individuos como las observaciones dentro de las condiciones dentro de los individuos se muestrean con reemplazo y se calcula un nuevo modelo de efectos mixtos a partir del cual las predicciones son obtenidas. Esto funciona bien para los datos que suponen un error gaussiano, pero cuando los datos son binomiales, el arranque puede tardar mucho tiempo porque cada iteración debe calcular un modelo de efectos mixtos binomiales relativamente intensivos en cómputo.

Pensé que podría usar los residuales del modelo original y luego usar estos residuales en lugar de los datos sin procesar en el bootstrapping, lo que me permitiría calcular un modelo de efecto mixto gaussiano en cada iteración del bootstrap. Agregar las predicciones originales del modelo binomial de los datos sin procesar a las predicciones bootstrap de los residuos produce un IC del 95% para las predicciones originales.

Sin embargo, recientemente codifiqué una evaluación simple de este enfoque, sin modelar la diferencia entre dos condiciones y calculando la proporción de veces que un intervalo de confianza del 95% no pudo incluir cero, y descubrí que el procedimiento de arranque basado en residuos anterior produce un fuerte efecto anti intervalos conservadores (excluyen cero más del 5% del tiempo). Además, codifiqué (el mismo enlace que el anterior) una evaluación similar de este enfoque aplicado a los datos que originalmente eran gaussianos, y obtuve ICs conservadores similares (aunque no tan extremos). ¿Alguna idea de por qué podría ser esto?

Mike Lawrence
fuente
hm, acabo de notar que en el código de generación de datos para ambos casos, en realidad no agregué ninguna variabilidad entre individuos que uno generalmente está interesado en eliminar al modelar individuos como efectos aleatorios. Veré si agregar esta variabilidad cambia el resultado; de vuelta en unas horas ...
Mike Lawrence
Si no recuerdo mal, bootstrap hace que la estimación se acerque más a la estimación real de la población. No dice nada sobre el intervalo de confianza. (cf. Kesar Singh, Sobre la precisión asintótica de la rutina de arranque de Efron. Ann. Statist., 1981, 9, 1187-1195)
suncoolsu
@me: puedo confirmar que la adición de la variabilidad entre individuos en la función de generación de datos no mejora el rendimiento del bootstrap. He subido el código que usé para confirmar esto a la esencia vinculada en la publicación original.
Mike Lawrence
@suncoolsu: estoy bastante seguro de que los intervalos de confianza de arranque han sido estándar durante bastante tiempo. Efron los menciona en su artículo de 1978 que describe el procedimiento de arranque en general, luego tuvo un montón de documentos en los años 80 y 90 sobre ajustes del procedimiento de arranque para intervalos de confianza más precisos (corrección de sesgo, aceleración, estudiante, etc.).
Mike Lawrence el
1
¿Ha leído el siguiente documento de Morris: "Los BLUP no son los mejores cuando se trata de bootstrapping". Puede estar relacionado con tu trabajo. enlace
julio

Respuestas:

7

Recuerde que todos los intervalos de confianza de arranque son solo asintóticamente al nivel de confianza establecido. También hay una gran cantidad de métodos posibles para seleccionar intervalos de confianza de bootstrap. Método de percentil de Efron, método de percentil de Hall, doble bootstrap, bootstrap t, bootstrap inclinado, BC, BCa y quizás algunos más. No nos ha dicho qué método utiliza. El artículo de Schenker en JASA 1985 mostró que, para ciertas distribuciones de chi cuadrado, el intervalo de confianza de arranque de BC subrayaba el porcentaje anunciado. En problemas de tamaño de muestra pequeño, este problema puede ser grave. LaBudde y yo tenemos dos documentos que muestran cómo, en muestras pequeñas, incluso BCa puede tener una cobertura muy pobre al estimar una variación de una distribución lognormal y existe un problema similar para probar la igualdad de dos variaciones. Esto es solo por un problema simple. Espero que lo mismo pueda suceder con los residuos de modelos mixtos. En nuestro nuevo libro "Una introducción a los métodos de Bootstrap con aplicaciones para R" publicado por Wiley en 2011, cubrimos este tema en la Sección 3.7 y proporcionamos referencias. La sorpresa es que el método del percentil a veces funciona mejor que el método BCa preciso de orden superior, cuando el tamaño de la muestra es pequeño.

Michael R. Chernick
fuente