Necesito un único conjunto de datos imputados (por ejemplo, para crear un grupo ficticio del grupo imputado a partir de los datos de ingreso per cápita del país imputado). R ofrece paquetes de paquetes para crear múltiples datos imputados (por ejemplo, Amelia) y combinar resultados de múltiples conjuntos de datos (como en MItools). Mi preocupación es si puedo promediar todos los datos imputados para obtener un único conjunto de datos. Si es así, ¿cómo puedo hacerlo en R?
r
data-imputation
Amirul Islam
fuente
fuente
Respuestas:
No puedes promediar los datos. Como las variables serán las mismas en todos los datos imputados, debe agregar cada dato imputado. Por ejemplo, si tiene 6 variables con 1000 observaciones y su frecuencia de imputación es 5, tendrá los datos finales de 6 variables con 5000 observaciones. Utiliza la
rbind
función para agregar los datos en R. Por ejemplo, si tienes cinco datos imputados (suponiendo que ya tienes estos datos en la mano), tus datos finales se obtendrán comoPara más detalles, ver aquí.
Después de la imputación:
El coeficiente de regresión de cada dato imputado será generalmente diferente; entonces el coeficiente se obtiene como promedio de los coeficientes de todos los datos imputados. Pero, hay una regla adicional para el error estándar. Ver aquí para más detalles.
fuente
finaldata <- complete(data, "long")
en [ratones] [1] hace lo mismo. También puede producir otras formas, por ejemplo, una matriz amplia o matriz repetida. [1]: cran.r-project.org/web/packages/mice/index.html "ratones"mice
todavía. Me gustaría saber simice
realiza el análisis cuando solo tenemos múltiples datos imputados (pero no los datos originales) de la encuesta.Los modelos de imputación múltiple para datos faltantes rara vez se emplean en la práctica, ya que los estudios de simulación sugieren que las posibilidades de que los parámetros subyacentes verdaderos se encuentren dentro de los intervalos de cobertura no siempre se representan con precisión. Recomiendo encarecidamente una prueba del proceso basada en datos simulados (con parámetros conocidos con precisión), basados en datos reales en el área de investigación. Una referencia estudio de simulación https://www.google.com/url?sa=t&source=web&rct=j&ei=Ua4BVJgD5MiwBMKggKgP&url=http://www.ssc.upenn.edu/~allison/MultInt99.pdf&cd=13&ved=0CCEQFjACOAo&usg=AFQjCNF1Rg6SbFPwLv5n3jYIVNA_iTMPCg&sig2 = d2VORWbqTNygdM6Z51TZEg
Sospecho que emplear cinco modelos simples / ingenuos para los datos faltantes puede ser mejor para producir menos sesgos y cubrir intervalos que incluyen con precisión los parámetros subyacentes verdaderos. En lugar de agrupar las estimaciones de los parámetros, uno puede hacerlo mejor empleando técnicas bayesianas (consulte el trabajo con modelos de imputación en este sentido en https://www.google.com/url?sa=t&source=web&rct=j&ei=mqcAVP7RA5HoggSop4LoDw&url=http: //gking.harvard.edu/files/gking/files/measure.pdf&cd=5&ved=0CCUQFjAE&usg=AFQjCNFCZQwfWJDrrjzu4_5syV44vGOncA&sig2=XZUM14OMq_A01FyN4r61Zw ).
Sí, no es un gran respaldo para los modelos estándar de imputación de datos faltantes y para citar una fuente, por ejemplo, http://m.circoutcomes.ahajournals.org/content/3/1/98.short?rss=1&ssource=mfr : "Describimos algunos antecedentes del análisis de datos faltantes y criticamos los métodos ad hoc que son propensos a problemas serios. Luego nos enfocamos en la imputación múltiple, en la cual los casos faltantes se completan primero con varios conjuntos de valores plausibles para crear múltiples conjuntos de datos completos. .. "donde insertaría" (?) "después de modelos plausibles como ingenuos, por ejemplo, generalmente no se describe mejor como que produzcan predicciones plausibles. Sin embargo, los modelos que incorporan la variable dependiente y, en sí misma, como una variable independiente (llamada regresión de calibración) pueden cumplir mejor con esta caracterización.
fuente