Tengo medidas repetidas en 2 puntos de tiempo en una muestra de personas. Hay 18k personas en el tiempo 1 y 13k en el tiempo 2 (5000 perdidas durante el seguimiento).
Quiero retroceder un resultado Y medido en el tiempo 2 (y el resultado no puede medirse en el tiempo 1) en el conjunto de predictores X medidos en el tiempo 1. Todas las variables tienen algunos datos faltantes. La mayor parte parece relativamente aleatoria, o la falta parece estar bien descrita por los datos observados. Sin embargo, la gran mayoría de las faltas en el resultado Y se debe a la pérdida durante el seguimiento. Usaré la imputación múltiple (R :: ratones), y usaré el conjunto de datos completo para imputar valores para X, pero he recibido 2 consejos contradictorios con respecto a la imputación de Y:
1) Imputar Y de X y V (V = variables auxiliares útiles) en la muestra completa de 18k.
2) No impute Y en individuos perdidos durante el seguimiento (y, por lo tanto, elimínelos de cualquier modelo de regresión posterior).
El primero tiene sentido porque la información es información, entonces, ¿por qué no usarlo todo? Pero esto último también tiene sentido, de una manera más intuitiva: simplemente parece incorrecto imputar el resultado para 5000 personas en función de Y ~ X + V, para luego dar la vuelta y estimar Y ~ X.
¿Cuál es (más) correcto?
Esta pregunta anterior es útil, pero no aborda directamente la falta debido a la pérdida durante el seguimiento (aunque quizás la respuesta sea la misma; no lo sé).
fuente
Respuestas:
Creo que este es un caso de instrumentación. Quieres una X faltante, no una Y faltante.
Pero X falta con frecuencia o está mal medido.
Entonces puedes ejecutar:
Y requieren algunos ajustes para los errores estándar.
También es posible que desee ver el procedimiento de 2 pasos de Heckmann si tiene muchas muestras de desgaste. http://en.wikipedia.org/wiki/Heckman_correction
fuente
Yo diría que ninguno de los dos es el más apropiado.
Eliminar todos los datos que faltan de sus datos hace que sus parámetros se sesguen (si los datos no son MCAR, consulte más arriba) y reduce significativamente la precisión de sus estimaciones. Este es un análisis de "caso completo" y no es aconsejable.
fuente