Hace poco comencé a aprender sobre los modelos mixtos lineales generalizados y estaba usando R para explorar la diferencia que hace al tratar la pertenencia a grupos como un efecto fijo o aleatorio. En particular, estoy mirando el conjunto de datos de ejemplo discutido aquí:
http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm
http://www.ats.ucla.edu/stat/r/dae/melogit.htm
Como se describe en este tutorial, el efecto de Doctor ID es apreciable y esperaba que el modelo mixto con una intercepción aleatoria ofreciera mejores resultados. Sin embargo, la comparación de los valores de AIC para los dos métodos sugiere que este modelo es peor:
> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)
Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial,
data = hdp)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5265 -0.6278 -0.2272 0.5492 2.7329
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.560e+01 1.219e+03 -0.013 0.990
Age -5.869e-02 5.272e-03 -11.133 < 2e-16 ***
Married1 2.688e-01 6.646e-02 4.044 5.26e-05 ***
IL6 -5.550e-02 1.153e-02 -4.815 1.47e-06 ***
DID2 1.805e+01 1.219e+03 0.015 0.988
DID3 1.932e+01 1.219e+03 0.016 0.987
[...]
DID405 1.566e+01 1.219e+03 0.013 0.990
DID405 1.566e+01 1.219e+03 0.013 0.990
DID406 -2.885e-01 3.929e+03 0.000 1.000
DID407 2.012e+01 1.219e+03 0.017 0.987
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 10353 on 8524 degrees of freedom
Residual deviance: 6436 on 8115 degrees of freedom
AIC: 7256
Number of Fisher Scoring iterations: 17
> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m
Generalized linear mixed model fit by the Laplace approximation
Formula: remission ~ Age + Married + IL6 + (1 | DID)
Data: hdp
AIC BIC logLik deviance
7743 7778 -3867 7733
Random effects:
Groups Name Variance Std.Dev.
DID (Intercept) 3.8401 1.9596
Number of obs: 8525, groups: DID, 407
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.461438 0.272709 5.359 8.37e-08 ***
Age -0.055969 0.005038 -11.109 < 2e-16 ***
Married1 0.260065 0.063736 4.080 4.50e-05 ***
IL6 -0.053288 0.011058 -4.819 1.44e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) Age Marrd1
Age -0.898
Married1 0.070 -0.224
IL6 -0.162 0.012 -0.033
> extractAIC(GLM) ; extractAIC(GLMM)
[1] 410.000 7255.962
[1] 5.000 7743.188
Por lo tanto, mis preguntas son:
(1) ¿Es apropiado comparar los valores de AIC proporcionados por las dos funciones? Si es así, ¿por qué el modelo de efectos fijos funciona mejor?
(2) ¿Cuál es la mejor manera de identificar si los efectos fijos o aleatorios son más importantes (es decir, cuantificar que la variabilidad debida al médico es más importante que las características del paciente?
fuente
DID
como tanto un efecto fijo, y una intercepción al azar en el segundo modelo. Además, tenerlo como un efecto fijo en el primer modelo significa que la elección b / t estos 2 sería sobre qué forma pensar sobre el efectoDID
, no si necesita ser incluido. En una nota diferente, noto que tiene un artículo (2); ¿Querías tener un artículo (1) en alguna parte?Los modelos son muy diferentes. El modelo glm está abordando la reducción general de la desviación (de un modelo nulo) cuando se estiman todos los efectos de doctorID y se les asignan estimaciones de parámetros. Usted nota, por supuesto, que Age, Married e IL6 tienen las mismas estadísticas de Wald en los dos modelos, ¿verdad? Mi entendimiento (no es muy refinado, lo admito) es que el modelo mixto está tratando los ID del médico como factores o estratos molestos, es decir, "efectos" que no se puede suponer que se extraigan de una distribución parental particular. No veo ninguna razón para pensar que el uso de un modelo mixto mejoraría su comprensión del "efecto médico", de hecho, todo lo contrario.
Si su interés estuviera en los efectos de Age, Married o IL6, habría imaginado que no estaría comparando AIC en esos dos modelos, sino más bien en diferencias en AIC con la eliminación de covariables de interés dentro de la misma estructura de modelado.
fuente