Imputación múltiple para variables de resultado

17

Tengo un conjunto de datos sobre ensayos agrícolas. Mi variable de respuesta es una relación de respuesta: log (tratamiento / control). Estoy interesado en lo que media la diferencia, por lo que estoy ejecutando meta-regresiones RE (sin ponderar, porque parece bastante claro que el tamaño del efecto no está correlacionado con la varianza de las estimaciones).

Cada estudio informa el rendimiento de grano, el rendimiento de biomasa o ambos. No puedo imputar el rendimiento de grano de los estudios que informan solo el rendimiento de biomasa, porque no todas las plantas estudiadas fueron útiles para el grano (por ejemplo, se incluye la caña de azúcar). Pero cada planta que producía grano también tenía biomasa.

Para las covariables faltantes, he estado usando la imputación de regresión iterativa (siguiendo el capítulo del libro de texto de Andrew Gelman). Parece dar resultados razonables, y todo el proceso es generalmente intuitivo. Básicamente predigo valores perdidos, y uso esos valores predichos para predecir valores perdidos, y recorro cada variable hasta que cada variable converge aproximadamente (en distribución).

¿Hay alguna razón por la que no pueda usar el mismo proceso para imputar datos de resultados faltantes? Probablemente pueda formar un modelo de imputación relativamente informativo para la relación de respuesta de biomasa dada la relación de respuesta de grano, el tipo de cultivo y otras covariables que tengo. Luego promediaría los coeficientes y los VCV, y agregaría la corrección MI según la práctica estándar.

Pero, ¿qué miden estos coeficientes cuando se imputan los resultados mismos? ¿La interpretación de los coeficientes es diferente del MI estándar para las covariables? Pensando en ello, no puedo convencerme de que esto no funciona, pero no estoy realmente seguro. Pensamientos y sugerencias para leer material son bienvenidos.

genérico_usuario
fuente
No tengo la respuesta, pero una pregunta y dos notas: 1) el registro de una relación es, por supuesto, la diferencia de los registros. Entonces su DV es equivalente a log (tratamiento) - log (control). 2) ¿Qué libro de texto de Gelman estabas viendo?
Peter Flom - Restablece a Monica
Sí, el DV es equivalente a log (tratamiento) -log (control). Estoy basando la imputación de regresión iterativa en el capítulo (no técnico) sobre los datos faltantes que Gelman ha publicado en línea: stat.columbia.edu/~gelman/arm/missing.pdf
generic_user
Me han dicho que imputar el resultado conduce al error de Monte Carlo. Intentaremos encontrar un enlace más tarde. No olvide que debe asegurarse de incluir el resultado en los modelos de imputación para las covariables.
DL Dahly

Respuestas:

19

Como sospechaba, es válido usar la imputación múltiple para la medida de resultado. Hay casos en que esto es útil, pero también puede ser arriesgado. Considero la situación en la que todas las covariables están completas y el resultado es incompleto.

Si el modelo de imputación es correcto, obtendremos inferencias válidas sobre las estimaciones de los parámetros a partir de los datos imputados. Las inferencias obtenidas solo de los casos completos pueden ser erróneas si la falta está relacionada con el resultado después del condicionamiento en el predictor, es decir, bajo MNAR. Por lo tanto, la imputación es útil si sabemos (o sospechamos) que los datos son MNAR.

Bajo MAR, generalmente no hay beneficios para imputar el resultado, y para un bajo número de imputaciones, los resultados pueden incluso ser algo más variables debido a un error de simulación. Hay una excepción importante a esto. Si tenemos acceso a una variable completa auxiliar que no es parte del modelo y que está altamente correlacionada con el resultado, la imputación puede ser considerablemente más eficiente que el análisis de caso completo, lo que resulta en estimaciones más precisas e intervalos de confianza más cortos. Un escenario común donde esto ocurre es si tenemos una medida de resultado barata para todos y una medida costosa para un subconjunto.

En muchos conjuntos de datos, también faltan datos en las variables independientes. En estos casos, necesitamos imputar la variable de resultado ya que su versión imputada es necesaria para imputar las variables independientes.

Stef van Buuren
fuente
Gracias, esto es coherente con mi intuición, pero ¿podría compartir un enlace a un estudio publicado bien hecho que impute variables dependientes? Una de las razones principales por las que quiero imputar las medidas de resultado es aumentar el tamaño de la muestra (de aproximadamente 250 a aproximadamente 450), para facilitar los términos de interacción del producto tensor semi-paramétrico en GAM que tienen requisitos de df muy altos (antes de que se obtengan penalizado, bajando edf). MAR es razonable en mi caso.
generic_user el
1
Se ha practicado ampliamente para que ANOVA obtenga diseños equilibrados. Vea la introducción de RJA Little, Regresión con X faltantes, JASA 1992. Supongo que sabe que aumentar el tamaño de la muestra de esta manera no le ayuda a obtener estimaciones más precisas. Para el caso de las variables auxiliares, lea la sección sobre supereficiencia en DB Rubin, Imputación múltiple después de 18 años, JASA 1996.
Stef van Buuren
1
"Bajo MAR, generalmente no hay beneficios para imputar el resultado" . He visto esto mencionado anteriormente, pero no tengo ninguna referencia para ello. ¿Puede proporcionar uno por favor?
Robert Long
Creo que puede citar Little 1992 tandfonline.com/doi/abs/10.1080/01621459.1992.10476282 para eso, pero tenga en cuenta las excepciones.
Stef van Buuren
1
@StefvanBuuren: respuesta útil en su mayor parte, pero entiendo que "si sabemos (o sospechamos) que los datos son MNAR", la imputación no puede resolver nuestros problemas más que el análisis completo de casos. Esto parece estar en la categoría "sin almuerzo gratis".
rolando2
2

La imputación de datos de resultados es muy común y conduce a una inferencia correcta cuando se tiene en cuenta el error aleatorio.

Parece que lo que está haciendo es una imputación única, al imputar los valores faltantes con una media condicional en un análisis de caso completo. Lo que debería estar haciendo es una imputación múltiple que, para covariables continuas, explica el error aleatorio que habría observado si hubiera medido retroactivamente estos valores faltantes. El algoritmo EM funciona de manera similar promediando un rango de posibles resultados observados.

La imputación única proporciona una estimación correcta de los parámetros del modelo cuando no hay una relación media-varianza, pero proporciona estimaciones de error estándar que están sesgadas hacia cero, lo que infla las tasas de error tipo I. Esto se debe a que ha sido "optimista" sobre el grado de error que habría observado si hubiera medido estos factores.

La imputación múltiple es un proceso de generación iterativa de errores aditivos para la imputación media condicional, de modo que a través de 7 u 8 imitaciones simuladas, puede combinar modelos y sus errores para obtener estimaciones correctas de los parámetros del modelo y sus errores estándar. Si faltan conjuntamente covariables y resultados, entonces hay un software en SAS, STATA y R llamado imputación múltiple a través de ecuaciones encadenadas donde se generan conjuntos de datos "completados" (conjuntos de datos con valores imputados que se tratan como fijos y no aleatorios), modelo parámetros estimados a partir de cada conjunto de datos completo, y sus estimaciones de parámetros y errores estándar combinados usando una formación matemática correcta (detalles en el documento de Van Buuren).

La ligera diferencia entre el proceso en MI y el proceso que describió es que no ha tenido en cuenta el hecho de que estimar la distribución condicional del resultado utilizando datos imputados dependerá del orden en que impute ciertos factores. Debería haber estimado la distribución condicional de las covariables faltantes que condicionan el resultado en MI, de lo contrario obtendrá estimaciones de parámetros sesgadas.

AdamO
fuente
Gracias. En primer lugar, estoy programando todo desde cero en R, no estoy usando MICE o MI. En segundo lugar, estoy imputando sorteos de una distribución predictiva (modelada), no solo expectativas condicionales. ¿Es eso de lo que estás hablando en el segundo párrafo? Si no, agradecería una aclaración. Además, ¿a qué papel de Royston te refieres? Para su último punto, ¿está diciendo algo más complicado que "debería poner su variable dependiente en el modelo de imputación"? Si es así, agradecería mucho la aclaración.
generic_user el
Por último, no estoy haciendo una imputación única. Estoy ajustando 30 modelos con datos completados y usando la fórmula V_b = W + (1 + 1 / m) B de Rubin.
generic_user el
El papel de Royston estaba hipervinculado. En realidad, tenía la intención de vincular a Van Buuren, quien implementó el programa en R e incluye detalles computacionales: doc.utwente.nl/78938 MICE / MI es un proceso. Si está imputando en función del código interno, debe elaborar mejor los detalles. Medios condicionales = valores pronosticados si el modelo es correcto (o aproximadamente, una suposición necesaria). Es más complicado que "agregar el resultado", es que estás imputando sobre varios patrones faltantes (al menos 3, falta covariable / resultado / falta conjunta).
AdamO
Si solo está imputando el valor predicho 30 veces, debería obtener los mismos resultados 30 veces. ¿Cómo estás estimando el error?
AdamO
Fyot,yometropag