La lógica de la imputación múltiple (MI) es imputar los valores faltantes no una vez sino varias (típicamente M = 5) veces, lo que resulta en M conjuntos de datos completados. Los M conjuntos de datos completados se analizan luego con métodos de datos completos sobre los cuales se combinan las estimaciones M y sus errores estándar utilizando las fórmulas de Rubin para obtener la estimación "general" y su error estándar.
Genial hasta ahora, pero no estoy seguro de cómo aplicar esta receta cuando se trata de componentes de varianza de un modelo de efectos mixtos. La distribución de muestreo de un componente de varianza es asimétrica, por lo tanto, el intervalo de confianza correspondiente no se puede dar en la forma típica "estimación ± 1.96 * se (estimación)". Por esta razón, los paquetes R lme4 y nlme ni siquiera proporcionan los errores estándar de los componentes de varianza, sino que solo proporcionan intervalos de confianza.
Por lo tanto, podemos realizar MI en un conjunto de datos y luego obtener M intervalos de confianza por componente de varianza después de ajustar el mismo modelo de efecto mixto en los M conjuntos de datos completados. La pregunta es cómo combinar estos intervalos M en un intervalo de confianza "general".
Supongo que esto debería ser posible: los autores de un artículo (yucel & demirtas (2010) Impacto de los efectos aleatorios no normales en la inferencia por IM) parecen haberlo hecho, pero no explican exactamente cómo.
¡Cualquier consejo sería muy necesario!
Saludos, Rok
Respuestas:
¡Esta es una gran pregunta! No estoy seguro de que esta sea una respuesta completa, sin embargo, elimino estas pocas líneas en caso de que ayude.
Parece que Yucel y Demirtas (2010) se refieren a un artículo más antiguo publicado en JCGS, Estrategias computacionales para modelos multivariados de efectos mixtos lineales con valores faltantes , que utiliza un enfoque híbrido de puntuación EM / Fisher para producir estimaciones basadas en la probabilidad de los CV . Se ha implementado en el paquete R mlmmm . Sin embargo, no sé si produce CI.
De lo contrario, definitivamente verificaría el programa WinBUGS , que se utiliza principalmente para modelos multinivel, incluidos aquellos con datos faltantes. Creo recordar que solo funcionará si su MV está en la variable de respuesta, no en las covariables porque generalmente tenemos que especificar las distribuciones condicionales completas (si MV está presente en las variables independientes, significa que debemos dar un las X que faltan, y eso se considerará como un parámetro que WinBUGS estimará ...). Parece que también se aplica a R, si me refiero al siguiente hilo en r-sig-mixed, datos faltantes en lme, lmer, PROC MIXED . Además, puede valer la pena mirar el software MLwiN .
fuente
Comentario repetido desde arriba:
No estoy seguro de que exista una solución analítica adecuada para este problema. He mirado alguna literatura adicional, pero este problema se pasa por alto con elegancia en todas partes. También noté que Yucel & Demirtas (en el artículo que mencioné, página 798) escriben:
Parece que usaron algún tipo de atajo para estimar el SE del componente de varianza (que, por supuesto, es inapropiado, ya que el IC es asimétrico) y luego aplicaron la fórmula clásica.
fuente
Descargo de responsabilidad: esta idea puede ser tonta y no voy a pretender entender las implicaciones teóricas de lo que estoy proponiendo.
" Sugerencia " : ¿Por qué no simplemente imputas 100 conjuntos de datos (sé que normalmente haces 5), ejecutas lme4 o nmle, obtienes los intervalos de confianza (tienes 100 de ellos) y luego:
Usando un ancho de intervalo pequeño (digamos rango / 1000 o algo así), pruebe sobre el rango de valores posibles de cada parámetro e incluya solo aquellos intervalos pequeños que aparecen en al menos 95 de los 100 IC. Entonces tendría un "promedio" de Monte Carlo de sus intervalos de confianza.
Estoy seguro de que hay problemas (o quizás problemas teóricos) con este enfoque. Por ejemplo, podría terminar con un conjunto de intervalos disjuntos . Esto puede o no ser algo malo dependiendo de su campo. Tenga en cuenta que esto solo es posible si tiene al menos dos intervalos de confianza completamente no superpuestos que están separados por una región con menos del 95% de cobertura.
También podría considerar algo más cercano al tratamiento bayesiano de los datos faltantes para obtener una región creíble posterior que ciertamente estaría mejor formada y más teóricamente respaldada que mi sugerencia ad-hoc.
fuente