¿Cuándo usar ecuaciones de estimación generalizadas versus modelos de efectos mixtos?

63

He estado bastante feliz usando modelos de efectos mixtos desde hace un tiempo con datos longitudinales. Desearía poder encajar las relaciones AR en lmer (creo que tengo razón en que no puedo hacer esto), pero no creo que sea desesperadamente importante, así que no me preocupo demasiado.

Acabo de encontrar ecuaciones de estimación generalizadas (GEE), y parecen ofrecer mucha más flexibilidad que los modelos ME.

A riesgo de hacer una pregunta general, ¿hay algún consejo sobre cuál es mejor para diferentes tareas? He visto algunos papeles comparándolos, y tienden a ser de la forma:

"En esta área altamente especializada, no use GEE para X, no use modelos ME para Y".

No he encontrado más consejos generales. ¿Alguien puede iluminarme?

¡Gracias!

Chris Beeley
fuente
1
"parecen ofrecer mucha más flexibilidad" ... Bueno, también difieren en su enfoque, ya que los GEE se utilizan para ajustarse a una distribución marginal, al contrario del enfoque condicional que a menudo es de interés cuando se usa GLMM.
chl
Tenga en cuenta que glmmPQLtambién puede ajustarse a las estructuras de correlación AR
Tom Wenseleers
¿Qué es una relación AR?
Estadísticas de aprendizaje por ejemplo
@incodeveritas Estructura de covarianza
autorregresiva

Respuestas:

56

Use GEE cuando esté interesado en descubrir el efecto promedio poblacional de una covariable versus el efecto específico individual. Estas dos cosas solo son equivalentes en modelos lineales, pero no en no lineales (por ejemplo, logística). Para ver esto, tomemos, por ejemplo, el modelo logístico de efectos aleatorios de la observación 'del sujeto , ;jiYij

log(pij1pij)=μ+ηi

donde es un efecto aleatorio para el sujeto y .ηiN(0,σ2)ipij=P(Yij=1|ηi)

Si usó un modelo de efectos aleatorios en estos datos, obtendría una estimación de que explica el hecho de que se aplicó una perturbación media distribuida normalmente cero a cada individuo, haciéndola específica individual.μ

Si utilizó GEE en estos datos, estimaría las probabilidades de registro promedio de la población. En este caso eso sería

ν=log(Eη(11+eμηi)1Eη(11+eμηi))

νμ , en general. Por ejemplo, si y , entonces . Aunque los efectos aleatorios tienen media cero en la escala transformada (o vinculada ), su efecto no es media cero en la escala original de los datos. Intente simular algunos datos de un modelo de regresión logística de efectos mixtos y compare el promedio del nivel de población con el logit inverso de la intersección y verá que no son iguales, como en este ejemplo. Esta diferencia en la interpretación de los coeficientes es la diferencia fundamental entre GEE y los modelos de efectos aleatorios .μ=1σ2=1ν.83

Editar: en general, un modelo de efectos mixtos sin predictores se puede escribir como

ψ(E(Yij|ηi))=μ+ηi

donde es una función de enlace. Cuandoψ

ψ(Eη(ψ1(E(Yij|ηi))))Eη(E(Yij|ηi))

habrá una diferencia entre los coeficientes promedio de la población (GEE) y los coeficientes específicos individuales (modelos de efectos aleatorios). Es decir, los promedios cambian transformando los datos, integrando los efectos aleatorios en la escala transformada y luego transformando de nuevo. Tenga en cuenta que en el modelo lineal, (es decir, ), la igualdad se mantiene, por lo que son equivalentes.ψ(x)=x

Edición 2: También vale la pena señalar que los errores estándar "robustos" de tipo sandwich producidos por un modelo GEE proporcionan intervalos de confianza asintóticos válidos (por ejemplo, en realidad cubren el 95% del tiempo) incluso si la estructura de correlación especificada en el modelo no es correcto.

Edición 3: si su interés es comprender la estructura de asociación en los datos, las estimaciones de asociaciones de GEE son notoriamente ineficientes (y a veces inconsistentes). He visto una referencia para esto, pero no puedo ubicarla ahora.

Macro
fuente
3
(+1) Acerca de su segunda edición, agregaría que los estimadores de varianza basados ​​en modelos funcionarán mejor con una pequeña cantidad de grupos (o podemos usar un estimador Jacknife). En cuanto a una referencia, siempre apunto a gbi.agrsci.dk/statistics/courses/phd07/material/Day10 , que contiene notas de conferencias muy bonitas (estadísticas, antecedentes, incluida una comparación de enfoques GEE vs GLMM + ilustraciones en R) .
chl
Wow, qué gran respuesta. Muchas gracias. Eso es totalmente lo que estaba buscando. Y gracias a chl también por el enlace. +10 interconexiones para los dos.
Chris Beeley
¿No suponen también los GEE que los efectos de nivel superior son parámetros molestos? Me parece que es otra distinción importante: si uno está interesado en esos efectos, GEE no se lo daría. Alternativamente, si no se siente cómodo haciendo esos supuestos de distribución, entonces quizás GEE sería preferible.
robin.datadrivers
El enlace que proporcionó @chl está muerto: / (seis años después es algo esperado, ¿verdad?)
Guilherme Marthe
@GuilhermeMarthe ¡Buena captura! Desafortunadamente, me vinculé al mismo material en otro hilo . Veo dos opciones: hacer referencia al paquete geepack R (desarrollado por los mismos dos autores) o usar la máquina WayBack por el momento.
chl
10

En mi opinión, GEE es más útil cuando no estamos utilizando el modelado bayesiano y cuando no hay una solución de probabilidad completa disponible. Además, GEE puede requerir tamaños de muestra más grandes para ser lo suficientemente precisos, y es muy poco robusto o no hay datos longitudinales que faltan al azar. GEE supone que falta completamente al azar, mientras que los métodos de probabilidad (modelos de efectos mixtos o mínimos cuadrados generalizados, por ejemplo) suponen que solo faltan al azar.

Frank Harrell
fuente
1

Puede encontrar una discusión exhaustiva y ejemplos concretos en Fitzmaurice, Laird y Ware, Análisis Longitudinal Aplicado , John Wiley & Sons, 2011, 2da edición, Capítulos 11-16.

En cuanto a los ejemplos, puede encontrar conjuntos de datos y programas SAS / Stata / R en el sitio web complementario .

Sergio
fuente
2
¿Podría resumir los puntos principales de este libro?
chl
2
Yo diría que Macro ya lo ha hecho ;-) En el libro puede encontrar una discusión más larga y más detallada, algunos ejemplos analíticos, numéricos y gráficos, y algunos puntos adicionales, entre ellos lo que Frank Harrell ha agregado. También puedes mirar el blog de Gelman .
Sergio