¿Cuál es la ventaja de la imputación sobre la construcción de múltiples modelos en regresión?

Me pregunto si alguien podría proporcionar una idea de por qué es mejor una imputación de datos faltantes que simplemente construir diferentes modelos para casos con datos faltantes. Especialmente en el caso de modelos lineales [generalizados] (tal vez pueda ver en casos no lineales que las cosas son diferentes)

Supongamos que tenemos el modelo lineal básico:

$Y = \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon$

Pero nuestro conjunto de datos contiene algunos registros con faltante. En el conjunto de datos de predicción donde se utilizará el modelo, también habrá casos de falta de . Parece que hay dos formas de proceder: $X_3$ $X_3$

Modelos múltiples

Podríamos dividir los datos en y no y construir un modelo separado para cada uno. Si suponemos que está estrechamente relacionado con entonces el modelo de datos que falta puede sobrepeso para obtener la mejor predicción de dos predictores. Además, si los casos de datos faltantes son ligeramente diferentes (debido al mecanismo de datos faltantes), puede incorporar esa diferencia. En el lado negativo, los dos modelos se ajustan solo a una parte de los datos y no se "ayudan" entre sí, por lo que el ajuste puede ser deficiente en conjuntos de datos limitados. $X_3$ $X_3$ $X_3$ $X_2$ $X_2$

Imputación

La imputación múltiple de regresión primero rellenaría al construir un modelo basado en y y luego realizar un muestreo aleatorio para mantener el ruido en los datos imputados. Dado que esto es nuevamente dos modelos, ¿esto no solo terminará siendo el mismo que el método de modelo múltiple anterior? Si es capaz de superar, ¿de dónde viene la ganancia? ¿Es solo que el ajuste para se realiza en todo el conjunto? $X_3$ $X_1$ $X_2$ $X_1$

EDITAR:

Si bien la respuesta de Steffan hasta ahora explica que ajustar el modelo de caso completo en los datos imputados superará al ajuste en los datos completos, y parece obvio que lo contrario es cierto, todavía hay algunos malentendidos sobre la predicción de datos faltantes.

Si tengo el modelo anterior, incluso si se ajusta perfectamente, en general será un modelo de pronóstico terrible si simplemente pongo cero al predecir. Imagine, por ejemplo, que entonces es completamente inútil ( ) cuando está presente, pero aún sería útil en ausencia de . $X_2 = X_3+\eta$ $X_2$ $\beta_2 = 0$ $X_3$ $X_3$

La pregunta clave que no entiendo es: ¿ es mejor construir dos modelos, uno usando y otro usando , o es mejor construir un solo modelo (completo) y usar imputación en los conjuntos de datos de pronóstico, ¿o son lo mismo? $(X_1, X_2)$ $(X_1, X_2, X_3)$

Con la respuesta de Steffan, parece que es mejor construir el modelo de caso completo en un conjunto de entrenamiento imputado, y por el contrario, probablemente sea mejor construir el modelo de datos que falta en el conjunto de datos completo con descartado. ¿Es este segundo paso diferente de usar un modelo de imputación en los datos de pronóstico? $X_3$

regression missing-data data-imputation Korone
fuente

Respuestas:

Creo que la clave aquí es comprender el mecanismo de datos faltantes; o al menos descartar algunos. La construcción de modelos separados es similar a tratar a los grupos desaparecidos y no desaparecidos como muestras aleatorias. Si la falta en X3 está relacionada con X1 o X2 o alguna otra variable no observada, entonces sus estimaciones probablemente estén sesgadas en cada modelo. ¿Por qué no utilizar la imputación múltiple en el conjunto de datos de desarrollo y utilizar los coeficientes combinados en un conjunto de predicción imputado múltiple? Promedio a través de las predicciones y debería ser bueno.

Investigación confiable
fuente

Pero si la falta está relacionada con X1 o X2, entonces seguramente es bueno tener dos modelos separados, ya que incorporarán esa información. Es decir, cuando en el futuro tenga un X3 perdido, sabré que estoy sesgado en la dirección correcta.

Korone

Supongo que está interesado en obtener estimaciones imparciales de los coeficientes de regresión. El análisis de los casos completos arroja estimaciones imparciales de sus coeficientes de regresión siempre que la probabilidad de que falte X3 no dependa de Y. Esto se cumple incluso si la probabilidad de falta depende de X1 o X2, y para cualquier tipo de análisis de regresión.

Por supuesto, las estimaciones pueden ser ineficientes si la proporción de casos completos es pequeña. En ese caso, podría usar la imputación múltiple de X3 dado X2, X1 e Y para aumentar la precisión. Ver White y Carlin (2010) Stat Med para más detalles.

Stef van Buuren
fuente

Ah, entonces, ¿la imputación se trata de obtener los coeficientes correctos? Los coeficientes en sí mismos no me interesan: solo quiero maximizar mi poder predictivo sobre los nuevos datos (que también pueden faltar)

Korone

Esta bien. Para lograr el máximo poder predictivo, también querrá estimaciones precisas e imparciales de los coeficientes del modelo.

Stef van Buuren

Si solo uso los casos completos, entonces no puedo usar ese modelo para la predicción cuando me faltan datos, porque los coeficientes generalmente serán incorrectos (por ejemplo, si hay una correlación entre X2 y X3). Por lo tanto, debo imputar X3 al hacer la predicción o construir un segundo modelo solo en X1 y X2. La pregunta es si esto da como resultado diferentes predicciones y ¿cuál es mejor?

Korone

Ah, creo que entiendo un punto que está diciendo: si ajusto el modelo para la predicción completa de casos usando la imputación, eso mejorará el pronóstico completo del caso, en lugar de ajustarlo solo con los casos de la competencia. La pregunta restante es ¿qué es lo mejor para los casos incompletos?

Korone

Suponga que beta_1 = beta_2 = 0 y beta_3 = 1. Usar solo X1 y X2 predecirá una constante, mientras que la predicción usando X3 explicará parte de la varianza de Y y, por lo tanto, reducirá el error residual. Por lo tanto, la versión imputada produce mejores predicciones.

Stef van Buuren

Un estudio de Harvard sugiere una imputación múltiple con cinco pronósticos de los datos faltantes (aquí hay referencia, http://m.circoutcomes.ahajournals.org/content/3/1/98.full ). Incluso entonces, recuerdo los comentarios de que los modelos de imputación pueden no producir intervalos de cobertura para los parámetros del modelo que no incluyen los verdaderos valores subyacentes.

Con eso en mente, parece mejor usar cinco modelos ingenuos simples para el valor faltante (suponiendo que no faltan al azar en la discusión actual) que producen una buena distribución de valores, de modo que los intervalos de cobertura puedan, al menos, contener los parámetros verdaderos .

Mi experiencia en la teoría del muestreo es que a menudo se gastan muchos recursos en submuestrear la población sin respuesta que, a veces, parece ser muy diferente de la población de respuesta. Como tal, recomendaría un ejercicio similar en la regresión de valores perdidos al menos una vez en el área particular de aplicación. Las relaciones no recuperadas en tal exploración de los datos faltantes pueden ser de valor histórico para construir mejores modelos de pronóstico de datos faltantes para el futuro.

AJKOER
fuente