Tengo un conjunto de datos sobre ensayos agrícolas. Mi variable de respuesta es una relación de respuesta: log (tratamiento / control). Estoy interesado en lo que media la diferencia, por lo que estoy ejecutando meta-regresiones RE (sin ponderar, porque parece bastante claro que el tamaño del efecto no está correlacionado con la varianza de las estimaciones).
Cada estudio informa el rendimiento de grano, el rendimiento de biomasa o ambos. No puedo imputar el rendimiento de grano de los estudios que informan solo el rendimiento de biomasa, porque no todas las plantas estudiadas fueron útiles para el grano (por ejemplo, se incluye la caña de azúcar). Pero cada planta que producía grano también tenía biomasa.
Para las covariables faltantes, he estado usando la imputación de regresión iterativa (siguiendo el capítulo del libro de texto de Andrew Gelman). Parece dar resultados razonables, y todo el proceso es generalmente intuitivo. Básicamente predigo valores perdidos, y uso esos valores predichos para predecir valores perdidos, y recorro cada variable hasta que cada variable converge aproximadamente (en distribución).
¿Hay alguna razón por la que no pueda usar el mismo proceso para imputar datos de resultados faltantes? Probablemente pueda formar un modelo de imputación relativamente informativo para la relación de respuesta de biomasa dada la relación de respuesta de grano, el tipo de cultivo y otras covariables que tengo. Luego promediaría los coeficientes y los VCV, y agregaría la corrección MI según la práctica estándar.
Pero, ¿qué miden estos coeficientes cuando se imputan los resultados mismos? ¿La interpretación de los coeficientes es diferente del MI estándar para las covariables? Pensando en ello, no puedo convencerme de que esto no funciona, pero no estoy realmente seguro. Pensamientos y sugerencias para leer material son bienvenidos.
fuente
Respuestas:
Como sospechaba, es válido usar la imputación múltiple para la medida de resultado. Hay casos en que esto es útil, pero también puede ser arriesgado. Considero la situación en la que todas las covariables están completas y el resultado es incompleto.
Si el modelo de imputación es correcto, obtendremos inferencias válidas sobre las estimaciones de los parámetros a partir de los datos imputados. Las inferencias obtenidas solo de los casos completos pueden ser erróneas si la falta está relacionada con el resultado después del condicionamiento en el predictor, es decir, bajo MNAR. Por lo tanto, la imputación es útil si sabemos (o sospechamos) que los datos son MNAR.
Bajo MAR, generalmente no hay beneficios para imputar el resultado, y para un bajo número de imputaciones, los resultados pueden incluso ser algo más variables debido a un error de simulación. Hay una excepción importante a esto. Si tenemos acceso a una variable completa auxiliar que no es parte del modelo y que está altamente correlacionada con el resultado, la imputación puede ser considerablemente más eficiente que el análisis de caso completo, lo que resulta en estimaciones más precisas e intervalos de confianza más cortos. Un escenario común donde esto ocurre es si tenemos una medida de resultado barata para todos y una medida costosa para un subconjunto.
En muchos conjuntos de datos, también faltan datos en las variables independientes. En estos casos, necesitamos imputar la variable de resultado ya que su versión imputada es necesaria para imputar las variables independientes.
fuente
La imputación de datos de resultados es muy común y conduce a una inferencia correcta cuando se tiene en cuenta el error aleatorio.
Parece que lo que está haciendo es una imputación única, al imputar los valores faltantes con una media condicional en un análisis de caso completo. Lo que debería estar haciendo es una imputación múltiple que, para covariables continuas, explica el error aleatorio que habría observado si hubiera medido retroactivamente estos valores faltantes. El algoritmo EM funciona de manera similar promediando un rango de posibles resultados observados.
La imputación única proporciona una estimación correcta de los parámetros del modelo cuando no hay una relación media-varianza, pero proporciona estimaciones de error estándar que están sesgadas hacia cero, lo que infla las tasas de error tipo I. Esto se debe a que ha sido "optimista" sobre el grado de error que habría observado si hubiera medido estos factores.
La imputación múltiple es un proceso de generación iterativa de errores aditivos para la imputación media condicional, de modo que a través de 7 u 8 imitaciones simuladas, puede combinar modelos y sus errores para obtener estimaciones correctas de los parámetros del modelo y sus errores estándar. Si faltan conjuntamente covariables y resultados, entonces hay un software en SAS, STATA y R llamado imputación múltiple a través de ecuaciones encadenadas donde se generan conjuntos de datos "completados" (conjuntos de datos con valores imputados que se tratan como fijos y no aleatorios), modelo parámetros estimados a partir de cada conjunto de datos completo, y sus estimaciones de parámetros y errores estándar combinados usando una formación matemática correcta (detalles en el documento de Van Buuren).
La ligera diferencia entre el proceso en MI y el proceso que describió es que no ha tenido en cuenta el hecho de que estimar la distribución condicional del resultado utilizando datos imputados dependerá del orden en que impute ciertos factores. Debería haber estimado la distribución condicional de las covariables faltantes que condicionan el resultado en MI, de lo contrario obtendrá estimaciones de parámetros sesgadas.
fuente