Hay una variable en mis datos que tiene el 80% de los datos faltantes. Faltan los datos debido a la inexistencia (es decir, cuánto préstamo bancario debe la empresa). Me encontré con un artículo que decía que el método de ajuste variable ficticio es la solución para este problema. ¿Significa que necesito transformar esta variable continua en categórica?
¿Es esta la única solución? No quiero descartar esta variable porque, en teoría, creo que es importante para mi pregunta de investigación.
¿Faltan los datos en el sentido de que son desconocidos o simplemente significa que no hay préstamo (por lo que el monto del préstamo es cero)? Suena como este último, en cuyo caso necesita un ficticio binario adicional para indicar si hay un préstamo. No se necesita ninguna transformación del monto del préstamo (aparte, tal vez, de una reexpresión continua, como un registro raíz o iniciado, que podría indicarse en virtud de otras consideraciones).
Esto funciona bien en una regresión. Un ejemplo simple es un modelo conceptual de la forma.
variable dependiente (Y) = monto del préstamo (X) + constante.
Con la adición de un indicador de préstamo ( ), el modelo de regresión esyo
Y= βyoyo+ βXX+ β0 0+ ϵ
con representando errores aleatorios con cero expectativas. Los coeficientes se interpretan como:ϵ
es la expectativa de Y para situaciones sin préstamo, porque se caracterizan por X = 0 e I = 0 .β0 0YX= 0yo= 0
es el cambio marginal en Y con respecto al monto del préstamo ( X ).βXYX
es la intercepción para los casos con préstamos.βyo+ β0 0
No serán tratados como faltantes, sino que estimarán el valor sin préstamo. Tal vez no haya otorgado el préstamo 'NA', en cuyo caso debe recodificarlos a 0.
John
2
XX= 0yo= 1
3
@ lcl23 Si entendí la situación correctamente, la imputación no tiene sentido: sus datos "faltantes" no faltan; indican que no se ha tomado ningún préstamo.
whuber
1
yo( X= 1 )I(X=0)
1
1βI0
1
Creo que ha entendido mal la sugerencia del artículo: principalmente porque la sugerencia no tiene sentido. Entonces tendría dos problemas: cómo recodificar una variable y sus valores aún faltan. Lo que probablemente se sugirió fue crear un indicador de falta .
Un enfoque algo relevante para el manejo de datos faltantes que coincida con esta descripción es ajustar para un indicador de falta . Este es ciertamente un enfoque simple y fácil, pero en general es parcial. El sesgo puede ser ilimitado en su maldad. Lo que esto hace efectivamente es ajustar dos modelos y promediar sus efectos juntos: el primer modelo es el modelo totalmente condicional , el segundo es un modelo de factor completo. El modelo totalmente condicional es el modelo de caso completo en el que se elimina cada observación que tiene valores faltantes. Por lo tanto, se ajusta a un subconjunto del 20% de los datos. El segundo es un ajuste en el 80% restante que no se ajusta para el valor faltante en absoluto. Este modelo marginal estima los mismos efectos que el modelo completo cuando no hay interacción no medida, cuando la función de enlace es plegable y cuando faltan datos al azar (MAR). Estos efectos se combinan con un promedio ponderado. Incluso en condiciones ideales, sin interacciones no medidas, y faltando datos completamente al azar (MCAR), el enfoque del indicador faltante conduce a efectos sesgados porque el modelo marginal y el modelo condicional estiman diferentes efectos. Incluso las predicciones están sesgadas en este caso.
Una alternativa mucho mejor es simplemente usar la imputación múltiple. Incluso cuando el factor mayormente perdido se mide con una prevalencia muy baja, el IM hace un trabajo relativamente bueno al generar realizaciones sofisticadas de los posibles valores. La única suposición necesaria aquí es MAR.
¿Qué significa "la función de enlace es plegable"?
Matthew Drury
1
@MatthewDrury básicamente, "colapsabilidad" significa que el ajuste de las variables que predicen el resultado pero no los efectos principales aumentará la precisión, pero no cambiará el efecto estimado.
AdamO
Genial, gracias Adam. No había escuchado esa terminología antes.
Creo que ha entendido mal la sugerencia del artículo: principalmente porque la sugerencia no tiene sentido. Entonces tendría dos problemas: cómo recodificar una variable y sus valores aún faltan. Lo que probablemente se sugirió fue crear un indicador de falta .
Un enfoque algo relevante para el manejo de datos faltantes que coincida con esta descripción es ajustar para un indicador de falta . Este es ciertamente un enfoque simple y fácil, pero en general es parcial. El sesgo puede ser ilimitado en su maldad. Lo que esto hace efectivamente es ajustar dos modelos y promediar sus efectos juntos: el primer modelo es el modelo totalmente condicional , el segundo es un modelo de factor completo. El modelo totalmente condicional es el modelo de caso completo en el que se elimina cada observación que tiene valores faltantes. Por lo tanto, se ajusta a un subconjunto del 20% de los datos. El segundo es un ajuste en el 80% restante que no se ajusta para el valor faltante en absoluto. Este modelo marginal estima los mismos efectos que el modelo completo cuando no hay interacción no medida, cuando la función de enlace es plegable y cuando faltan datos al azar (MAR). Estos efectos se combinan con un promedio ponderado. Incluso en condiciones ideales, sin interacciones no medidas, y faltando datos completamente al azar (MCAR), el enfoque del indicador faltante conduce a efectos sesgados porque el modelo marginal y el modelo condicional estiman diferentes efectos. Incluso las predicciones están sesgadas en este caso.
Una alternativa mucho mejor es simplemente usar la imputación múltiple. Incluso cuando el factor mayormente perdido se mide con una prevalencia muy baja, el IM hace un trabajo relativamente bueno al generar realizaciones sofisticadas de los posibles valores. La única suposición necesaria aquí es MAR.
fuente