¿Cuál es la diferencia entre un modelo GLM (regresión logística) con una variable de respuesta binaria que incluye sujeto y tiempo como covariables y el modelo GEE análogo que tiene en cuenta la correlación entre mediciones en múltiples puntos de tiempo?
Mi GLM se ve así:
Y(binary) ~ A + B1X1(subject id) + B2X2(time)
+ B3X3(interesting continuous covariate)
con función de enlace logit.
Estoy buscando una explicación simple (dirigida al científico social) de cómo y por qué el tiempo se trata de manera diferente en los dos modelos y cuáles serían las implicaciones para la interpretación.
Respuestas:
Puede haber una respuesta mejor y más detallada, pero puedo darle algunos pensamientos simples y rápidos. Parece que está hablando de usar un Modelo lineal generalizado (p. Ej., Una regresión logística típica) para ajustarse a los datos recopilados de algunos sujetos en múltiples puntos de tiempo. A primera vista, veo dos problemas evidentes con este enfoque.
Primero, este modelo supone que sus datos son independientes dadas las covariables (es decir, después de haber tenido en cuenta un código ficticio para cada sujeto, similar a un término de intercepción individual y una tendencia de tiempo lineal que es igual para todos). Esto es muy poco probable que sea cierto. En cambio, es casi seguro que habrá autocorrelaciones, por ejemplo, dos observaciones del mismo individuo más cercano en el tiempo serán más similares que dos observaciones más separadas en el tiempo, incluso después de haber contabilizado el tiempo . (Aunque pueden ser independientes si también incluye una
subject ID x time
interacción, es decir, una tendencia de tiempo única para todos, pero esto agravaría el siguiente problema).En segundo lugar, va a quemar una enorme cantidad de grados de libertad estimando un parámetro para cada participante. Es probable que tenga relativamente pocos grados de libertad para tratar de estimar con precisión sus parámetros de interés (por supuesto, esto depende de cuántas mediciones tenga por persona).
Irónicamente, el primer problema significa que sus intervalos de confianza son demasiado estrechos, mientras que el segundo significa que sus CI serán mucho más amplios de lo que hubieran sido si no hubiera desperdiciado la mayoría de sus grados de libertad. Sin embargo, no contaría con que estos dos se equilibren entre sí. Por lo que vale, creo que sus estimaciones de parámetros serían imparciales (aunque puede estar equivocado aquí).
Usar las ecuaciones de estimación generalizadas es apropiado en este caso. Cuando ajusta un modelo usando GEE, especifica una estructura correlacional (como AR (1)), y puede ser bastante razonable que sus datos sean condicionales independientes tanto en sus covariables como en la matriz de correlaciones que especificó. Además, el GEE estima la asociación media de la población, por lo que no necesita quemar un grado de libertad para cada participante, en esencia, está promediando sobre ellos.
En cuanto a la interpretación, que yo sepa, sería lo mismo en ambos casos: dado que los otros factores permanecen constantes, un cambio de una unidad en X3 se asocia con un cambio de B3 en las probabilidades de log del "éxito". .
fuente