¿El método de sustitución de la media para reemplazar los datos faltantes está desactualizado? ¿Hay modelos más sofisticados que deberían usarse? Si es así, ¿Que son?
missing-data
Melissa Duncombe
fuente
fuente
What is MI
ofrece una lista de varios recursos.Respuestas:
Salvo el hecho de que no es necesario disparar a los mosquitos con un cañón (es decir, si le falta un valor en un millón de puntos de datos, simplemente suéltelo), usar la media podría ser subóptimo para decir lo menos: el resultado puede ser sesgado, y al menos debe corregir el resultado de la incertidumbre.
Hay algunas otras opciones, pero la más fácil de explicar es la imputación múltiple. El concepto es simple: basado en un modelo para sus datos en sí (por ejemplo, obtenido de los casos completos, aunque hay otras opciones disponibles, como MICE), extraiga valores de la distribución asociada para 'completar' su conjunto de datos. Luego, en este conjunto de datos completado, ya no le faltan datos y puede ejecutar su análisis de interés.
Si hiciera esto solo una vez (de hecho, reemplazar los valores faltantes con la media es una forma muy retorcida de esto), se llamaría imputación única, y no hay ninguna razón por la cual funcionaría mejor que la sustitución promedio.
Sin embargo: el truco es hacer esto repetidamente (de ahí la Imputación Múltiple), y cada vez que realice su análisis en cada conjunto de datos completado (= imputado). El resultado suele ser un conjunto de estimaciones de parámetros o similar para cada conjunto de datos completado. En condiciones relativamente flojas, está bien promediar las estimaciones de sus parámetros sobre todos estos conjuntos de datos imputados.
La ventaja es que también existe una fórmula simple para ajustar el error estándar para la incertidumbre causada por los datos faltantes.
Si quiere saber más, probablemente quiera leer el 'Análisis estadístico con datos faltantes' de Little y Rubin. Esto también contiene otros métodos (EM, ...) y más explicaciones sobre cómo / por qué / cuándo funcionan.
fuente
No nos dijo mucho sobre la naturaleza de sus datos faltantes. ¿Ha verificado MCAR ( falta completamente al azar )? Dado que no puede asumir MCAR, la sustitución de la media puede conducir a estimadores sesgados.
Como punto de partida no matemático, puedo recomendar las siguientes dos referencias:
fuente
Si sus valores faltantes se distribuyen aleatoriamente, o el tamaño de su muestra es pequeño, es mejor que solo use la media. Primero dividiría los datos en dos partes: 1 con los valores faltantes y el otro sin ellos y luego probaría la diferencia en las medias de algunas variables clave entre las dos muestras. Si no hay diferencia, tiene algún apoyo para sustituir la media o simplemente eliminar las observaciones por completo.
-Ralph Winters
fuente
La falta de datos es un gran problema en todas partes. Desearía que respondieras la siguiente pregunta primero. 1) ¿Qué% de antigüedad de los datos falta? - si es más del 10% de los datos, no correría el riesgo de imputarlo con media. Porque imputar tal falta con la media es equivalente a decirle al cuadro LR que se ve ... esta variable tiene significado en la mayoría de los lugares (así que saque alguna conclusión) y no desea que el cuadro LR saque conclusiones sobre sus sugerencias. Ahora, lo menos que puede hacer si no desea mucho es intentar relacionar los valores disponibles de estas variables con diferentes valores de predictores o usar un sentido comercial siempre que sea posible ... ejemplo ... si me falta un matrimonio_ind, uno de los las formas podrían ser ver la edad promedio de las personas casadas (digamos que resulta ser 29), Puedo suponer que, en general, las personas (en India) se casan a los 30 y 29 años lo sugiere. PROC MI también hace cosas internamente por usted, pero de una manera mucho más sofisticada ... por lo que mis 2 centavos ... vea al menos 4-5 variables que están vinculadas a sus faltas e intente formar una correlación ... Esto puede ser mejor que la media.
fuente