¿Cómo funciona la función de imputación de ratones?

9

Me preguntaba si alguien tenía experiencia en el uso de la función de ratones, como se describe en ratones: ¿Imputación multivariada por ecuaciones encadenadas en R (JSS 2011 45 (3))? Tengo un conjunto de datos con varias variables, cada una con diferentes grados de datos faltantes.

Mi pregunta principal es: digamos que uso la regresión lineal bayesiana para imputar datos faltantes, ¿ miceusa automáticamente las variables predictoras de más significativas a menos significativas para imputar? Además, ¿es común promediar todos los conjuntos de datos imputados?

mjburns
fuente
Hola a todos. Además de esto: desde entonces he podido utilizar la función de ratones con éxito. Tengo otra consulta Digamos, por ejemplo, que la función crea 5 conjuntos de datos completos (X1, X2 ... X5). Aplico la función (x) sobre cada conjunto de datos y devuelve Y1, Y2 ... Y5. ¿Crees que estaría bien informar el rango de Ymin a Ymax? ¿O tal vez el promedio de Y1 a Y5? ¿Alguien tiene alguna idea al respecto? Gracias.
mjburns

Respuestas:

8

Por defecto, los ratones usarán todas las variables en su conjunto de datos para predecir cualquier otra.

En cuanto al promedio, debe hacer esto después de calcular sus estadísticas, no antes. Por ejemplo, si desea hacer una regresión lineal, haría algo como esto:

library(mice)
mi <- mice(dataset)
mi.reg <- with(data=mi,exp=glm(y~x+z))
mi.reg.pool <- pool(mi.reg)
summary(mi.reg.pool)

La función de resumen le mostrará los coeficientes promediados.

Dominic Comtois
fuente
Gracias por eso. ¿Estás diciendo que solo debería promediar una vez que haya verificado que las estadísticas están "bien"? Además, mi conjunto de datos tiene 6 variables. ¿Cómo analizo las estadísticas usando regresión lineal? ¿Tengo que verificar cada variable por separado? Por ejemplo, lm (x1 ~ x2 + x3 + x4 + x5 ....)
mjburns
¿Debe referirse a la verificación de supuestos? Lo más importante que debe verificar son los residuos de su modelo (incluidos todos los predictores). Probablemente me apegaría al análisis de caso completo para hacer eso (antes de la imputación múltiple), pero es posible que desee solicitar el asesoramiento de un estadístico experimentado (que yo no soy).
Dominic Comtois
1
@mjburns: en el ejemplo de dominic999, el promedio es de los coeficientes que resultan de ajustar el mismo modelo lineal a cada una de las múltiples versiones del conjunto de datos con imputación múltiple. No creo que tenga sentido promediar los conjuntos de datos, ya que perderías la variabilidad (con suerte justificada y realista) que proporciona la imputación múltiple. Los estadísticos de resumen para los resultados agrupados (promediados) son muy similares a los de un modelo lineal regular (al menos en términos de los coeficientes mismos) en los que hay que mirar Pr (> | t |) para ver la importancia de cada uno.
Wayne
Considere votar / aceptar la respuesta si sirvió bien a su propósito.
Dominic Comtois
Gracias dominic999 y Wayne. Ahora entiendo mucho más lo que sucede después de seguir tus pistas y jugar más con los datos.
mjburns