¿Cómo combinar múltiples conjuntos de datos imputados?

Necesito un único conjunto de datos imputados (por ejemplo, para crear un grupo ficticio del grupo imputado a partir de los datos de ingreso per cápita del país imputado). R ofrece paquetes de paquetes para crear múltiples datos imputados (por ejemplo, Amelia) y combinar resultados de múltiples conjuntos de datos (como en MItools). Mi preocupación es si puedo promediar todos los datos imputados para obtener un único conjunto de datos. Si es así, ¿cómo puedo hacerlo en R?

r data-imputation Amirul Islam
fuente

Promediar datos es malo porque infla las correlaciones. La verdadera pregunta es por qué cree que necesita un único conjunto de datos imputados. Todo lo que puede hacer con un solo conjunto de datos, puede hacerlo en un conjunto de datos con imputación múltiple.

Stef van Buuren el

@Stef: ¿Es también el caso si queremos calcular el efecto marginal en el caso de un modelo de selección como el modelo de Heckit? Puedo calcular el efecto marginal en cada dato imputado; pero la pregunta es si la teoría tiene algo que decir sobre cómo combinarlos. Gracias.

Métricas

¡Solo piscina! No existe una teoría que nos permita hacer esto. Pero tampoco hay una teoría que prohíba esto.

Stef van Buuren

@Stef, en mice :: pool, se especifica que el objeto debe ser with.mids () o as.mira (). ¿Se pueden usar modelos de aprendizaje automático en lugar de métodos de regresión?

KarthikS

Respuestas:

No puedes promediar los datos. Como las variables serán las mismas en todos los datos imputados, debe agregar cada dato imputado. Por ejemplo, si tiene 6 variables con 1000 observaciones y su frecuencia de imputación es 5, tendrá los datos finales de 6 variables con 5000 observaciones. Utiliza la rbindfunción para agregar los datos en R. Por ejemplo, si tienes cinco datos imputados (suponiendo que ya tienes estos datos en la mano), tus datos finales se obtendrán como

finaldata <- rbind(data1,data2,data3,data4,data5)

Para más detalles, ver aquí.

Después de la imputación:

El coeficiente de regresión de cada dato imputado será generalmente diferente; entonces el coeficiente se obtiene como promedio de los coeficientes de todos los datos imputados. Pero, hay una regla adicional para el error estándar. Ver aquí para más detalles.

Métrica
fuente

La declaración finaldata <- complete(data, "long")en [ratones] [1] hace lo mismo. También puede producir otras formas, por ejemplo, una matriz amplia o matriz repetida. [1]: cran.r-project.org/web/packages/mice/index.html "ratones"

Stef van Buuren

@Stef: Gracias. No lo he usado micetodavía. Me gustaría saber si micerealiza el análisis cuando solo tenemos múltiples datos imputados (pero no los datos originales) de la encuesta.

Métricas

Sí, puede, pero necesita transformar los datos con imputación múltiple en un objeto de medios para utilizar las funciones estándar de postimputación de ratones para análisis, diagnósticos y agrupaciones repetidos. La próxima versión de ratones (2.18) incluirá una función as.mids que hace esto, pero requiere que los datos originales estén presentes. No (todavía) manejará el caso donde no sabemos dónde están los datos faltantes.

Stef van Buuren

Gracias. Entonces, todavía no puedo usar, por ejemplo, donde solo tengo el conjunto de datos imputados múltiples como en la Encuesta de Finanzas del consumidor .

Métricas

Si no sabe dónde están los datos faltantes, deberá volver a calcularlos a partir de los datos imputados. Esto clasificará incorrectamente los puntos como se observa si, por casualidad, todas las imputaciones para esa celda son idénticas en los conjuntos de datos m. Como consecuencia, los diagnósticos pueden etiquetar incorrectamente los puntos imputados como puntos observados (en terminología de ratones: algunos puntos rojos se trazan incorrectamente como puntos azules). Sin embargo, esto no afecta la validez de las inferencias estadísticas. Entonces, con un esfuerzo extra, puedes hacerlo.

Stef van Buuren

-1

Los modelos de imputación múltiple para datos faltantes rara vez se emplean en la práctica, ya que los estudios de simulación sugieren que las posibilidades de que los parámetros subyacentes verdaderos se encuentren dentro de los intervalos de cobertura no siempre se representan con precisión. Recomiendo encarecidamente una prueba del proceso basada en datos simulados (con parámetros conocidos con precisión), basados en datos reales en el área de investigación. Una referencia estudio de simulación https://www.google.com/url?sa=t&source=web&rct=j&ei=Ua4BVJgD5MiwBMKggKgP&url=http://www.ssc.upenn.edu/~allison/MultInt99.pdf&cd=13&ved=0CCEQFjACOAo&usg=AFQjCNF1Rg6SbFPwLv5n3jYIVNA_iTMPCg&sig2 = d2VORWbqTNygdM6Z51TZEg

Sospecho que emplear cinco modelos simples / ingenuos para los datos faltantes puede ser mejor para producir menos sesgos y cubrir intervalos que incluyen con precisión los parámetros subyacentes verdaderos. En lugar de agrupar las estimaciones de los parámetros, uno puede hacerlo mejor empleando técnicas bayesianas (consulte el trabajo con modelos de imputación en este sentido en https://www.google.com/url?sa=t&source=web&rct=j&ei=mqcAVP7RA5HoggSop4LoDw&url=http: //gking.harvard.edu/files/gking/files/measure.pdf&cd=5&ved=0CCUQFjAE&usg=AFQjCNFCZQwfWJDrrjzu4_5syV44vGOncA&sig2=XZUM14OMq_A01FyN4r61Zw ).

Sí, no es un gran respaldo para los modelos estándar de imputación de datos faltantes y para citar una fuente, por ejemplo, http://m.circoutcomes.ahajournals.org/content/3/1/98.short?rss=1&ssource=mfr : "Describimos algunos antecedentes del análisis de datos faltantes y criticamos los métodos ad hoc que son propensos a problemas serios. Luego nos enfocamos en la imputación múltiple, en la cual los casos faltantes se completan primero con varios conjuntos de valores plausibles para crear múltiples conjuntos de datos completos. .. "donde insertaría" (?) "después de modelos plausibles como ingenuos, por ejemplo, generalmente no se describe mejor como que produzcan predicciones plausibles. Sin embargo, los modelos que incorporan la variable dependiente y, en sí misma, como una variable independiente (llamada regresión de calibración) pueden cumplir mejor con esta caracterización.

AJKOER
fuente