¿Hay un nombre para este tipo de bootstrapping?

Considere un experimento con múltiples participantes humanos, cada uno medido varias veces en dos condiciones. Se puede formular un modelo de efectos mixtos (usando la sintaxis lme4 ) como:

fit = lmer(
    formula = measure ~ (1|participant) + condition
)

Ahora, digamos que quiero generar intervalos de confianza de arranque para las predicciones de este modelo. Creo que se me ocurrió un método simple y computacionalmente eficiente, y estoy seguro de que no soy el primero en pensarlo, pero tengo problemas para encontrar publicaciones anteriores que describan este enfoque. Aquí está:

Ajuste el modelo (como arriba), llame a esto el "modelo original"
Obtenga predicciones del modelo original, llámelas "predicciones originales"
Obtenga los residuos del modelo original asociado con cada respuesta de cada participante.
Vuelva a muestrear los residuos, muestreando a los participantes con reemplazo
Ajuste un modelo de efectos mixtos lineales con error gaussiano a los residuos , llame a esto el "modelo provisional"
Calcule predicciones del modelo provisional para cada condición (estas predicciones serán muy cercanas a cero), llámelas "predicciones provisionales"
Agregue las predicciones provisionales a las predicciones originales, llame al resultado las "predicciones de remuestreo"
Repita los pasos del 4 al 7 muchas veces, generando una distribución de predicciones de remuestreo para cada condición a partir de la cual una vez puede calcular los CI.

He visto procedimientos de "arranque residual" en el contexto de una regresión simple (es decir, no un modelo mixto) donde los residuos se muestrean como la unidad de remuestreo y luego se agregan a las predicciones del modelo original antes de ajustar un nuevo modelo en cada iteración de el bootstrap, pero esto parece bastante diferente del enfoque que describo donde los residuos nunca se vuelven a muestrear, las personas lo son, y solo despuésel modelo provisional se obtiene cuando entran en juego las predicciones del modelo original. Esta última característica tiene un beneficio adicional realmente bueno, ya que no importa la complejidad del modelo original, el modelo intermedio siempre se puede adaptar como un modelo mixto lineal gaussiano, que puede ser sustancialmente más rápido en algunos casos. Por ejemplo, recientemente tuve datos binomiales y 3 variables predictoras, una de las cuales sospeché que causaría efectos fuertemente no lineales, por lo que tuve que emplear el Modelado mixto aditivo generalizado usando una función de enlace binomial. El ajuste del modelo original en este caso llevó más de una hora, mientras que el ajuste del LMM gaussiano en cada iteración tomó solo unos segundos.

Realmente no quiero reclamar prioridad sobre esto si ya es un procedimiento conocido, por lo que estaría muy agradecido si alguien puede proporcionar información sobre dónde podría haberse descrito antes. (Además, si hay algún problema evidente con este enfoque, ¡hágamelo saber!)

mixed-model bootstrap Mike Lawrence
fuente

Solo un comentario secundario, pero podría ser relevante. Peter McCullagh tiene un artículo en Bernoulli donde muestra que ningún bootstrap estima correctamente la varianza en un modelo de efectos aleatorios.

cardenal

@ Mike (+1) ¡Esa es una pregunta muy bien escrita!

chl

¿Por qué no volvería a muestrear a los participantes con reemplazo y luego a sus datos? Eso parece estar más en consonancia con el espíritu de un modelo multinivel con una distribución anidada dentro de otra. Otro punto es que existe un problema potencial con los datos binomiales porque es menos probable que converjan los extremos de las muestras.

John

@John: Prefiero volver a muestrear los residuos porque (1) es más rápido para cuando el modelo original es laborioso de estimar, y (2) produce IC que han eliminado la variabilidad atribuible a la variabilidad entre las medias de los participantes. # 2 significa que no tiene que crear varias parcelas cuando desea mostrar datos sin procesar y un efecto de medidas repetidas; solo puede trazar estos IC eliminados entre varianzas en los datos sin procesar y serán apropiados para la comparación de condiciones repetidas dentro de los individuos. Es cierto que puede haber confusión sobre el significado de tales IC, pero para eso están los subtítulos de las figuras.

Mike Lawrence

@John: ¿Podría explicar sus temores con respecto a la aplicabilidad de este enfoque a los datos binomiales?

Mike Lawrence

¿Hay un nombre para este tipo de bootstrapping?

Respuestas: