¿Cuál es la diferencia entre GLM y GEE?

9

¿Cuál es la diferencia entre un modelo GLM (regresión logística) con una variable de respuesta binaria que incluye sujeto y tiempo como covariables y el modelo GEE análogo que tiene en cuenta la correlación entre mediciones en múltiples puntos de tiempo?

Mi GLM se ve así:

Y(binary) ~ A + B1X1(subject id) + B2X2(time) 
              + B3X3(interesting continuous covariate)

con función de enlace logit.

Estoy buscando una explicación simple (dirigida al científico social) de cómo y por qué el tiempo se trata de manera diferente en los dos modelos y cuáles serían las implicaciones para la interpretación.

N26
fuente
66
Encontré esas respuestas a preguntas relacionadas ( ¿Cuál es la diferencia entre ecuaciones de estimación generalizadas y GLMM ? , ¿ Cuándo usar ecuaciones de estimación generalizadas versus modelos de efectos mixtos? ) Muy completas, aunque se trata de GLM con efectos aleatorios versus GEE.
chl
1
¿Realmente desea ajustar la identificación del sujeto como una covariable continua? Parece extraño que la variable de respuesta sea una función creciente o decreciente de id.
invitado
Efectos promediados de la población versus efectos específicos del sujeto.
Será el
Aquí hay un enlace a un artículo que discute las diferencias entre los dos. aje.oxfordjournals.org/content/147/7/694.full.pdf+html
Será el
1
Además de los enlaces a las preguntas @chl anteriores, esta pregunta también discute estas ideas: Diferencia entre modelos lineales generalizados y modelos lineales mixtos generalizados en SPSS .
gung - Restablece a Monica

Respuestas:

12

Puede haber una respuesta mejor y más detallada, pero puedo darle algunos pensamientos simples y rápidos. Parece que está hablando de usar un Modelo lineal generalizado (p. Ej., Una regresión logística típica) para ajustarse a los datos recopilados de algunos sujetos en múltiples puntos de tiempo. A primera vista, veo dos problemas evidentes con este enfoque.

Primero, este modelo supone que sus datos son independientes dadas las covariables (es decir, después de haber tenido en cuenta un código ficticio para cada sujeto, similar a un término de intercepción individual y una tendencia de tiempo lineal que es igual para todos). Esto es muy poco probable que sea cierto. En cambio, es casi seguro que habrá autocorrelaciones, por ejemplo, dos observaciones del mismo individuo más cercano en el tiempo serán más similares que dos observaciones más separadas en el tiempo, incluso después de haber contabilizado el tiempo . (Aunque pueden ser independientes si también incluye una subject ID x timeinteracción, es decir, una tendencia de tiempo única para todos, pero esto agravaría el siguiente problema).

En segundo lugar, va a quemar una enorme cantidad de grados de libertad estimando un parámetro para cada participante. Es probable que tenga relativamente pocos grados de libertad para tratar de estimar con precisión sus parámetros de interés (por supuesto, esto depende de cuántas mediciones tenga por persona).

Irónicamente, el primer problema significa que sus intervalos de confianza son demasiado estrechos, mientras que el segundo significa que sus CI serán mucho más amplios de lo que hubieran sido si no hubiera desperdiciado la mayoría de sus grados de libertad. Sin embargo, no contaría con que estos dos se equilibren entre sí. Por lo que vale, creo que sus estimaciones de parámetros serían imparciales (aunque puede estar equivocado aquí).

Usar las ecuaciones de estimación generalizadas es apropiado en este caso. Cuando ajusta un modelo usando GEE, especifica una estructura correlacional (como AR (1)), y puede ser bastante razonable que sus datos sean condicionales independientes tanto en sus covariables como en la matriz de correlaciones que especificó. Además, el GEE estima la asociación media de la población, por lo que no necesita quemar un grado de libertad para cada participante, en esencia, está promediando sobre ellos.

En cuanto a la interpretación, que yo sepa, sería lo mismo en ambos casos: dado que los otros factores permanecen constantes, un cambio de una unidad en X3 se asocia con un cambio de B3 en las probabilidades de log del "éxito". .

gung - Restablece a Monica
fuente