Cómo combinar intervalos de confianza para un componente de varianza de un modelo de efectos mixtos cuando se usa la imputación múltiple

20

La lógica de la imputación múltiple (MI) es imputar los valores faltantes no una vez sino varias (típicamente M = 5) veces, lo que resulta en M conjuntos de datos completados. Los M conjuntos de datos completados se analizan luego con métodos de datos completos sobre los cuales se combinan las estimaciones M y sus errores estándar utilizando las fórmulas de Rubin para obtener la estimación "general" y su error estándar.

Genial hasta ahora, pero no estoy seguro de cómo aplicar esta receta cuando se trata de componentes de varianza de un modelo de efectos mixtos. La distribución de muestreo de un componente de varianza es asimétrica, por lo tanto, el intervalo de confianza correspondiente no se puede dar en la forma típica "estimación ± 1.96 * se (estimación)". Por esta razón, los paquetes R lme4 y nlme ni siquiera proporcionan los errores estándar de los componentes de varianza, sino que solo proporcionan intervalos de confianza.

Por lo tanto, podemos realizar MI en un conjunto de datos y luego obtener M intervalos de confianza por componente de varianza después de ajustar el mismo modelo de efecto mixto en los M conjuntos de datos completados. La pregunta es cómo combinar estos intervalos M en un intervalo de confianza "general".

Supongo que esto debería ser posible: los autores de un artículo (yucel & demirtas (2010) Impacto de los efectos aleatorios no normales en la inferencia por IM) parecen haberlo hecho, pero no explican exactamente cómo.

¡Cualquier consejo sería muy necesario!

Saludos, Rok

Rok
fuente
Una pregunta muy interesante. Miro adelante a oír de sus resultados, si quieres compartirlas ...
CHL
@chl: Puedo enviarte las tablas con los resultados cuando termine, pero en realidad no inventaré nada nuevo. Hasta ahora, solo planeo comparar MI bajo un modelo de imputación de dos niveles (paquete de paquetes R) con MI bajo un modelo normal simple (ignorando la estructura de dos niveles, la norma del paquete R) y la eliminación en listas. En diferentes tamaños de muestra, valores del componente de varianza, etc. Esto debería ser suficiente para el seminario (soy un estudiante de doctorado), pero no exactamente innovador. Si tiene alguna idea sobre cómo "animar" el estudio de simulación, me encantaría saberlo.
Rok
1
Otra cosa: no estoy seguro de que exista una solución analítica adecuada para este problema. He revisado algunas publicaciones adicionales, pero este problema se analiza con elegancia en todas partes. También he notado que yucel & demirtas (en el artículo que mencioné, página 798) escriben: “Estos conjuntos de datos imputados múltiples se usaron para estimar el modelo [...] usando el paquete R lme4 que conduce a 10 conjuntos de (beta, se (beta) ), (sigma_b, se (sigma_b)) que luego se combinaron usando las reglas de combinación MI definidas por Rubin. ”
Rok
Parece que usaron algún tipo de atajo para estimar el SE del componente de varianza (que, por supuesto, es inapropiado, ya que el IC es asimétrico) y luego aplicaron la fórmula clásica.
Rok
Ok, gracias por eso. ¿Puedes poner tus comentarios en una respuesta para que pueda ser votada?
chl

Respuestas:

8

¡Esta es una gran pregunta! No estoy seguro de que esta sea una respuesta completa, sin embargo, elimino estas pocas líneas en caso de que ayude.

Parece que Yucel y Demirtas (2010) se refieren a un artículo más antiguo publicado en JCGS, Estrategias computacionales para modelos multivariados de efectos mixtos lineales con valores faltantes , que utiliza un enfoque híbrido de puntuación EM / Fisher para producir estimaciones basadas en la probabilidad de los CV . Se ha implementado en el paquete R mlmmm . Sin embargo, no sé si produce CI.

De lo contrario, definitivamente verificaría el programa WinBUGS , que se utiliza principalmente para modelos multinivel, incluidos aquellos con datos faltantes. Creo recordar que solo funcionará si su MV está en la variable de respuesta, no en las covariables porque generalmente tenemos que especificar las distribuciones condicionales completas (si MV está presente en las variables independientes, significa que debemos dar un las X que faltan, y eso se considerará como un parámetro que WinBUGS estimará ...). Parece que también se aplica a R, si me refiero al siguiente hilo en r-sig-mixed, datos faltantes en lme, lmer, PROC MIXED . Además, puede valer la pena mirar el software MLwiN .

chl
fuente
¡Muchas gracias por tu respuesta! En principio, también estoy interesado en cómo resolver un problema concreto como el que describí (así que gracias por el consejo de WinBUGS). Pero en este momento estoy tratando de hacer un estudio de simulación para un documento de seminario en el que examinaría el rendimiento (tasas de cobertura, etc.) de MI bajo la especificación errónea del modelo. Supongo que me olvidaré de los componentes de varianza si no puedo encontrar una solución y enfocarme en los efectos fijos, pero es frustrante darse por vencido.
Rok
@Rok ¡Gran idea para la simulación! Esperaré este problema en particular. Supongo que ya buscas en el correo mixto r-sig y el libro de Gelman sobre regresión multinivel ...
chl
Miré ahora, tanques para las referencias! Desafortunadamente, no hay nada en MI en los archivos mixtos de r-sig; y Gelman solo da la fórmula básica sobre cómo combinar inferencias de MI cuando tenemos variaciones dentro y entre las imputaciones dadas (§25.7).
Rok
6

Comentario repetido desde arriba:

No estoy seguro de que exista una solución analítica adecuada para este problema. He mirado alguna literatura adicional, pero este problema se pasa por alto con elegancia en todas partes. También noté que Yucel & Demirtas (en el artículo que mencioné, página 798) escriben:

Estos conjuntos de datos con imputación múltiple se usaron para estimar el modelo [...] usando el paquete R que lme4conduce a 10 conjuntos de (beta, se (beta)), (sigma_b, se (sigma_b)) que luego se combinaron usando las reglas de combinación MI definidas por Frotar.

Parece que usaron algún tipo de atajo para estimar el SE del componente de varianza (que, por supuesto, es inapropiado, ya que el IC es asimétrico) y luego aplicaron la fórmula clásica.

Rok
fuente
Le agradezco que haya regresado para compartir su experiencia con este problema. Desafortunadamente, no tengo una solución real, pero tal vez surjan otras sugerencias.
chl
"Elegantemente pasado por alto" ... esa es una frase útil para revisar la literatura si alguna vez he escuchado una.
Matt Parker el
3

Descargo de responsabilidad: esta idea puede ser tonta y no voy a pretender entender las implicaciones teóricas de lo que estoy proponiendo.

" Sugerencia " : ¿Por qué no simplemente imputas 100 conjuntos de datos (sé que normalmente haces 5), ejecutas lme4 o nmle, obtienes los intervalos de confianza (tienes 100 de ellos) y luego:

Usando un ancho de intervalo pequeño (digamos rango / 1000 o algo así), pruebe sobre el rango de valores posibles de cada parámetro e incluya solo aquellos intervalos pequeños que aparecen en al menos 95 de los 100 IC. Entonces tendría un "promedio" de Monte Carlo de sus intervalos de confianza.

Estoy seguro de que hay problemas (o quizás problemas teóricos) con este enfoque. Por ejemplo, podría terminar con un conjunto de intervalos disjuntos . Esto puede o no ser algo malo dependiendo de su campo. Tenga en cuenta que esto solo es posible si tiene al menos dos intervalos de confianza completamente no superpuestos que están separados por una región con menos del 95% de cobertura.

También podría considerar algo más cercano al tratamiento bayesiano de los datos faltantes para obtener una región creíble posterior que ciertamente estaría mejor formada y más teóricamente respaldada que mi sugerencia ad-hoc.

M. Tibbits
fuente