Tasas faltantes e imputación múltiple

8

¿Existe un límite que sea el menos aceptable cuando se usa la imputación múltiple (MI)?

Por ejemplo, ¿puedo usar MI si los valores faltantes en una variable son el 20% de los casos mientras que otras variables tienen valores perdidos pero no a un nivel tan alto?

Mella
fuente
No consideraría un 20% muy alto, así que estoy seguro de que la respuesta a su segunda pregunta es sí, aunque no tengo una justificación rigurosa. Mi intuición es que el único límite es el que impide que el algoritmo funcione en absoluto. Recuerdo vagamente haber visto una tabla en el libro de Rubin que mostraba resultados para índices muy altos de falta. Si vale la pena (en lugar de válido) hacer MI con tasas muy altas de falta es otra cuestión.
mark999
1
Mucho dependerá de cuánto puede asumir que sus faltas faltan por completo al azar. Si hay un alto porcentaje de faltas y no faltan al azar, puede obtener estimaciones sesgadas para la imputación. Debido a que tiene que hacerse en casos presentes en los datos (por definición), donde existe un sesgo sistemático en los casos faltantes, los casos presentes pueden no ser muy informativos desde una perspectiva de precisión.
Michelle
@ mark999 - Gracias por la respuesta. ¿Cuándo la tasa de falta de una variable puede considerarse alta? Con respecto a su última pregunta, ¿tiene alguna respuesta?
Nick
@ Michelle - Gracias. Afortunadamente, la hipótesis MAR es bastante plausible (e incluso el MCAR podría considerarse plausible)
Nick
@ Nick: No sé qué debería considerarse una tasa muy alta, y no creo que sea necesario ponerle un número específico. No tengo una respuesta a la última pregunta.
mark999

Respuestas:

3

De los comentarios, está seguro de que está en una situación MAR o MCAR. Entonces la imputación múltiple es al menos razonable. Entonces, ¿cuánto falta es tratable? Piénsalo de esta manera:

Básicamente, la imputación múltiple hace que todas las estimaciones de parámetros de su modelo sean menos seguras en función de la precisión con la que se pueden predecir los datos faltantes con su modelo de imputación, que dependerá, entre otras cosas, de la cantidad de faltas que necesita imputarse, y Número de imputaciones que utiliza.

Por lo tanto, cuánto falta 'demasiado' depende de la cantidad de varianza / incertidumbre adicional que esté dispuesto a soportar. Una cantidad útil para usted podría ser la eficiencia relativa ( ) de un análisis de MI. Esto depende de la 'fracción de información faltante' (no de la tasa simple de falta), generalmente llamada , y la cantidad de imputaciones, generalmente llamada , como .REλmRE1/(1+λ/m)

En lugar de generar las definiciones de información faltante, etc., simplemente lea las preguntas frecuentes de MI que aclaran las cosas. A partir de ahí, sabrá si desea abordar las fuentes originales: Rubin, etc.

Prácticamente hablando, probablemente debería probar un análisis de imputación y ver cómo funciona.

conjugadoprior
fuente
el enlace de preguntas frecuentes está roto. ¿Alguna posibilidad de que tengas una actual? (parece útil)
drstevok
Adicional. Sin embargo, no estoy seguro de cuán oficial es.
conjugateprior
1

Puede encontrar

Rubin, Donald B. y Nathaniel Schenker. 1986. "Imputación múltiple para la estimación de intervalos a partir de muestras aleatorias simples con no respuesta ignorable". Revista de la Asociación Americana de Estadística 81 (394): 366–374.

servicial.

RTM
fuente
1
¿Podría por favor resumir en pocas palabras las recomendaciones de Rubin para que esta respuesta siga siendo autónoma?
chl
Tendré que conseguir eso. También escuché a Joe Shaffer de Penn State decir (mucho más recientemente) que MI es bueno a menos que los datos sean "REALMENTE no visibles"
Peter Flom
@Peter Flom: La declaración de Shaffer es interesante. ¿Conoces algún detalle?
mark999
1
@ Peter Flom: Gracias (interpreté erróneamente su "mucho más recientemente" como "recientemente").
mark999
1
@Peter Flom. Error tipográfico de mi parte, me temo. ¡El resto de mi comentario tiene sentido si pones el 'non' faltante al frente!
conjugateprior