¿Cómo puedo agrupar valores p de arranque en conjuntos de datos imputados de forma múltiple?

12

Me preocupa el problema de que me gustaría arrancar el valor p para una estimación de partir de datos de imputación múltiple (MI), pero que no está claro para mí cómo combinar los valores p en los conjuntos de MI.θ

Para los conjuntos de datos MI, el enfoque estándar para llegar a la varianza total de las estimaciones utiliza las reglas de Rubin. Consulte aquí para una revisión de la agrupación de conjuntos de datos de MI. La raíz cuadrada de la varianza total sirve como una estimación de error estándar de . Sin embargo, para algunos estimadores, la varianza total no tiene una forma cerrada conocida o la distribución de muestreo no es normal. El estadístico θ / s e ( θ ) puede no estar distribuido en t, ni siquiera asintóticamente.θθ/se(θ)

Por lo tanto, en el caso de los datos completos, una opción alternativa es iniciar el estadístico para encontrar la varianza, un valor p y un intervalo de confianza, incluso si la distribución de muestra no es normal y se desconoce su forma cerrada. En el caso de MI, hay dos opciones:

  • Agrupe la varianza de arranque en los conjuntos de datos de MI
  • Agrupe el valor p o los límites de confianza en los conjuntos de datos de MI

La primera opción volvería a utilizar las reglas de Rubin. Sin embargo, creo que esto es problemático si tiene una distribución de muestreo no normal. En esta situación (o más generalmente, en todas las situaciones), el valor p de arranque puede usarse directamente. Sin embargo, en el caso de MI, esto conduciría a múltiples valores de p o intervalos de confianza, que deben agruparse entre los conjuntos de datos de MI.θ

Entonces, mi pregunta es: ¿cómo debo agrupar múltiples valores p de arranque (o intervalos de confianza) en múltiples conjuntos de datos imputados?

Agradecería cualquier sugerencia sobre cómo proceder, gracias.

tomka
fuente
Quizás útiles: información faltante, imputación y el Bootstrap (Efron 1992) statistics.stanford.edu/sites/default/files/BIO%2520153.pdf
DL Dahly
@DLDahly Hmm, no estoy familiarizado con ese documento, pero la idea parece ser primero arrancar y luego realizar una imputación múltiple. El OP parece ser estimaciones de arranque de conjuntos de datos de MI.
tchakravarty
@fgnu De hecho, el procedimiento estándar para obtener la varianza total de una estimación mediante bootstrap sería arrancar la varianza dentro de cada conjunto de datos MI y luego aplicar las reglas de Rubin para agrupar la varianza bootstrap en los conjuntos de datos MI.
tomka

Respuestas:

6

Creo que ambas opciones dan como resultado la respuesta correcta. En general, preferiría el método 1, ya que conserva toda la distribución.

kmmk×m

Para el método 2, use el procedimiento Licht-Rubin. Consulte ¿Cómo obtener valores p agrupados en pruebas realizadas en múltiples conjuntos de datos imputados?

Stef van Buuren
fuente
+1 - SI el objetivo es comprender la variabilidad de los estimados en los conjuntos de datos de MI, pondría en marcha dentro de cada conjunto de datos de MI y vería las distribuciones totales y específicas de MI del parámetro.
DL Dahly
@ Stef-van-Buuren Parece que lo que DL Dahly sugiere es equivalente a agrupar la variación boostrapped en los conjuntos de MI. ¿Seguiría prefiriendo su método uno (agregar todos los conjuntos de datos de arranque) sobre este enfoque 'indirecto'?
tomka
@tomka. Ciertamente haría lo mismo que DL Dahly, y estudiaría las distribuciones de imputación dentro y entre ellas. Para integrar ambos tipos de distribuciones, necesitamos combinarlas de alguna manera. Mi sugerencia es simplemente mezclarlos.
Stef van Buuren
6

Esta no es una literatura con la que estoy familiarizado, pero una forma de abordar esto podría ser ignorar el hecho de que estos son valores p de arranque y mirar la literatura sobre la combinación de valores p a través de conjuntos de datos imputados múltiples.

En ese caso, se aplican Li, Meng, Raghunathan y Rubin (1991) . El procedimiento se basa en estadísticas de cada uno de los conjuntos de datos imputados, ponderados utilizando una medida de la pérdida de información debido a la imputación. Se topan con problemas relacionados con la distribución conjunta de las estadísticas entre las imputaciones, y hacen algunas suposiciones simplificadoras.

De interés relacionado es Meng (1994) .

Actualizar

En la disertación de Christine Licht, Ch., Se describe un procedimiento para combinar valores p a través de conjuntos de datos imputados de manera múltiple . 4 . La idea, que atribuye a Don Rubin, es esencialmente transformar los valores p para que se distribuyan normalmente, que luego se pueden combinar a través de conjuntos de datos MI utilizando las reglas estándar para la combinación de estadísticas z.

tchakravarty
fuente
Si entiendo el Li et al. funciona correctamente, se aplica a las estadísticas que obtiene de cada conjunto de MI. Por ejemplo, si obtiene Pearson Chi² en cada conjunto, entonces sus reglas podrían aplicarse para combinarlo para inferencia entre conjuntos. También se podría realizar una prueba de Wald, por ejemplo. Pero en el caso de un bootstrap, no obtienes una estadística que agruparías (sino solo un valor p). Por lo tanto, no estoy seguro de si hay algo en Li et al. eso podría aplicarse a la bootstrapped p.
tomka
1
@tomka He actualizado mi respuesta.
tchakravarty