Me pregunto si alguien podría proporcionar una idea de por qué es mejor una imputación de datos faltantes que simplemente construir diferentes modelos para casos con datos faltantes. Especialmente en el caso de modelos lineales [generalizados] (tal vez pueda ver en casos no lineales que las cosas son diferentes)
Supongamos que tenemos el modelo lineal básico:
Pero nuestro conjunto de datos contiene algunos registros con faltante. En el conjunto de datos de predicción donde se utilizará el modelo, también habrá casos de falta de . Parece que hay dos formas de proceder:X 3
Modelos múltiples
Podríamos dividir los datos en y no y construir un modelo separado para cada uno. Si suponemos que está estrechamente relacionado con entonces el modelo de datos que falta puede sobrepeso para obtener la mejor predicción de dos predictores. Además, si los casos de datos faltantes son ligeramente diferentes (debido al mecanismo de datos faltantes), puede incorporar esa diferencia. En el lado negativo, los dos modelos se ajustan solo a una parte de los datos y no se "ayudan" entre sí, por lo que el ajuste puede ser deficiente en conjuntos de datos limitados.X 3 X 3 X 2 X 2
Imputación
La imputación múltiple de regresión primero rellenaría al construir un modelo basado en y y luego realizar un muestreo aleatorio para mantener el ruido en los datos imputados. Dado que esto es nuevamente dos modelos, ¿esto no solo terminará siendo el mismo que el método de modelo múltiple anterior? Si es capaz de superar, ¿de dónde viene la ganancia? ¿Es solo que el ajuste para se realiza en todo el conjunto?X 1 X 2 X 1
EDITAR:
Si bien la respuesta de Steffan hasta ahora explica que ajustar el modelo de caso completo en los datos imputados superará al ajuste en los datos completos, y parece obvio que lo contrario es cierto, todavía hay algunos malentendidos sobre la predicción de datos faltantes.
Si tengo el modelo anterior, incluso si se ajusta perfectamente, en general será un modelo de pronóstico terrible si simplemente pongo cero al predecir. Imagine, por ejemplo, que entonces es completamente inútil ( ) cuando está presente, pero aún sería útil en ausencia de .X 2 β 2 = 0 X 3 X 3
La pregunta clave que no entiendo es: ¿ es mejor construir dos modelos, uno usando y otro usando , o es mejor construir un solo modelo (completo) y usar imputación en los conjuntos de datos de pronóstico, ¿o son lo mismo?
Con la respuesta de Steffan, parece que es mejor construir el modelo de caso completo en un conjunto de entrenamiento imputado, y por el contrario, probablemente sea mejor construir el modelo de datos que falta en el conjunto de datos completo con descartado. ¿Es este segundo paso diferente de usar un modelo de imputación en los datos de pronóstico?
Supongo que está interesado en obtener estimaciones imparciales de los coeficientes de regresión. El análisis de los casos completos arroja estimaciones imparciales de sus coeficientes de regresión siempre que la probabilidad de que falte X3 no dependa de Y. Esto se cumple incluso si la probabilidad de falta depende de X1 o X2, y para cualquier tipo de análisis de regresión.
Por supuesto, las estimaciones pueden ser ineficientes si la proporción de casos completos es pequeña. En ese caso, podría usar la imputación múltiple de X3 dado X2, X1 e Y para aumentar la precisión. Ver White y Carlin (2010) Stat Med para más detalles.
fuente
Un estudio de Harvard sugiere una imputación múltiple con cinco pronósticos de los datos faltantes (aquí hay referencia, http://m.circoutcomes.ahajournals.org/content/3/1/98.full ). Incluso entonces, recuerdo los comentarios de que los modelos de imputación pueden no producir intervalos de cobertura para los parámetros del modelo que no incluyen los verdaderos valores subyacentes.
Con eso en mente, parece mejor usar cinco modelos ingenuos simples para el valor faltante (suponiendo que no faltan al azar en la discusión actual) que producen una buena distribución de valores, de modo que los intervalos de cobertura puedan, al menos, contener los parámetros verdaderos .
Mi experiencia en la teoría del muestreo es que a menudo se gastan muchos recursos en submuestrear la población sin respuesta que, a veces, parece ser muy diferente de la población de respuesta. Como tal, recomendaría un ejercicio similar en la regresión de valores perdidos al menos una vez en el área particular de aplicación. Las relaciones no recuperadas en tal exploración de los datos faltantes pueden ser de valor histórico para construir mejores modelos de pronóstico de datos faltantes para el futuro.
fuente