Efectos fijos vs aleatorios

10

Hace poco comencé a aprender sobre los modelos mixtos lineales generalizados y estaba usando R para explorar la diferencia que hace al tratar la pertenencia a grupos como un efecto fijo o aleatorio. En particular, estoy mirando el conjunto de datos de ejemplo discutido aquí:

http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm

http://www.ats.ucla.edu/stat/r/dae/melogit.htm

Como se describe en este tutorial, el efecto de Doctor ID es apreciable y esperaba que el modelo mixto con una intercepción aleatoria ofreciera mejores resultados. Sin embargo, la comparación de los valores de AIC para los dos métodos sugiere que este modelo es peor:

> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)

Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, 
data = hdp)

Deviance Residuals: 
Min       1Q   Median       3Q      Max  
-2.5265  -0.6278  -0.2272   0.5492   2.7329  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.560e+01  1.219e+03  -0.013    0.990    
Age         -5.869e-02  5.272e-03 -11.133  < 2e-16 ***
Married1     2.688e-01  6.646e-02   4.044 5.26e-05 ***
IL6         -5.550e-02  1.153e-02  -4.815 1.47e-06 ***
DID2         1.805e+01  1.219e+03   0.015    0.988    
DID3         1.932e+01  1.219e+03   0.016    0.987   

[...]

DID405       1.566e+01  1.219e+03   0.013    0.990    
DID405       1.566e+01  1.219e+03   0.013    0.990    
DID406      -2.885e-01  3.929e+03   0.000    1.000    
DID407       2.012e+01  1.219e+03   0.017    0.987    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 10353  on 8524  degrees of freedom
Residual deviance:  6436  on 8115  degrees of freedom
AIC: 7256

Number of Fisher Scoring iterations: 17


> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m

Generalized linear mixed model fit by the Laplace approximation 
Formula: remission ~ Age + Married + IL6 + (1 | DID) 
Data: hdp 
AIC  BIC logLik deviance
7743 7778  -3867     7733
Random effects:
Groups Name        Variance Std.Dev.
DID    (Intercept) 3.8401   1.9596  
Number of obs: 8525, groups: DID, 407

Fixed effects:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.461438   0.272709   5.359 8.37e-08 ***
Age         -0.055969   0.005038 -11.109  < 2e-16 ***
Married1     0.260065   0.063736   4.080 4.50e-05 ***
IL6         -0.053288   0.011058  -4.819 1.44e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Correlation of Fixed Effects:
         (Intr) Age    Marrd1
Age      -0.898              
Married1  0.070 -0.224       
IL6      -0.162  0.012 -0.033


> extractAIC(GLM) ; extractAIC(GLMM)

[1]  410.000 7255.962
[1]    5.000 7743.188

Por lo tanto, mis preguntas son:

(1) ¿Es apropiado comparar los valores de AIC proporcionados por las dos funciones? Si es así, ¿por qué el modelo de efectos fijos funciona mejor?

(2) ¿Cuál es la mejor manera de identificar si los efectos fijos o aleatorios son más importantes (es decir, cuantificar que la variabilidad debida al médico es más importante que las características del paciente?

Invitado333
fuente

Respuestas:

7

Los modelos de efectos fijos y los modelos de efectos aleatorios hacen diferentes preguntas sobre los datos. La especificación de un conjunto de variables ficticias a nivel de grupo controla esencialmente todas las heterogeneidades no observadas a nivel de grupo en la respuesta promedio, dejando que sus estimaciones reflejen solo la variabilidad dentro de las unidades. Los modelos de efectos aleatorios comienzan con el supuesto de que hay una metapoblación de (cualquier efecto), y que su muestra refleja muchos dibujos de esa población. Entonces, en lugar de anclar sus resultados en torno a intercepciones heterogéneas, sus datos se utilizarán para dilucidar los parámetros de esa distribución (generalmente normal) de la que supuestamente se extrajeron sus datos.

A menudo se dice que los modelos de efectos fijos son buenos para realizar inferencias sobre los datos que tiene, y que los modelos de efectos aleatorios son buenos para intentar realizar inferencias en una población más grande de la cual sus datos son una muestra aleatoria.

t

yit=αi+βTit+ϵit

Puede dividir su término de error en ese componente de su término de error que varía en el tiempo, y uno que no:

yit=αi+βTit+ei+uit

Ahora reste la media grupal de ambos lados:

yity¯i=αiα¯i+β(TitT¯i)+eie¯i+uitu¯it

t

tei

En este ejemplo, el tiempo es la variable de agrupación. En su ejemplo, es DID. (es decir, generaliza)

genérico_usuario
fuente
1

1) Es apropiado hacer la comparación, solo que no con esos dos modelos. Te gustaría comparar:

GLM <- glm(remission~Age+Married+IL6, data=hdp, family=binomial)

con

GLMM <- glmer(remission~Age+Married+IL6+(1|DID), data=hdp, family=binomial)

y puedes hacer esto con una anova:

anova(GLM, GLMM)

(No estoy seguro de si esto funcionará con los resultados glmy glmer, ya que podrían ser diferentes objetos R. Es posible que tenga que usar dos funciones que tengan objetos de retorno comparables, como lmey gls, o haga el anova usted mismo).

χ02χ12

Para mí, el mejor libro para comprender el proceso de construcción de modelos anidados y pruebas de hipótesis ha sido West, Welsh y Galecki (2007) Linear Mixed Models: una guía práctica . Pasan por todo paso a paso.

2) Si tiene múltiples observaciones por paciente, también agregaría un efecto aleatorio para el paciente. Luego, para evaluar la importancia relativa de la paciencia frente al médico, puede observar los efectos predictivos del paciente frente a los efectos predictivos para el médico. Los términos de efectos aleatorios para cada uno cuantificarán la cantidad de variación entre pacientes y entre médicos, si esa es una pregunta que le interesa.

(¡Alguien corríjame si me equivoco!)

Christopher Poile
fuente
No estoy seguro de que tiene sentido tener DIDcomo tanto un efecto fijo, y una intercepción al azar en el segundo modelo. Además, tenerlo como un efecto fijo en el primer modelo significa que la elección b / t estos 2 sería sobre qué forma pensar sobre el efecto DID, no si necesita ser incluido. En una nota diferente, noto que tiene un artículo (2); ¿Querías tener un artículo (1) en alguna parte?
gung - Restablece a Monica
Estás absolutamente en lo correcto; Estaba pasando de la fórmula glm original del OP que no debería haber tenido DID como efecto fijo en primer lugar. Ahora, la opción es si tratar el DID como un efecto aleatorio agrega algún valor al modelo.
Christopher Poile
1

Los modelos son muy diferentes. El modelo glm está abordando la reducción general de la desviación (de un modelo nulo) cuando se estiman todos los efectos de doctorID y se les asignan estimaciones de parámetros. Usted nota, por supuesto, que Age, Married e IL6 tienen las mismas estadísticas de Wald en los dos modelos, ¿verdad? Mi entendimiento (no es muy refinado, lo admito) es que el modelo mixto está tratando los ID del médico como factores o estratos molestos, es decir, "efectos" que no se puede suponer que se extraigan de una distribución parental particular. No veo ninguna razón para pensar que el uso de un modelo mixto mejoraría su comprensión del "efecto médico", de hecho, todo lo contrario.

Si su interés estuviera en los efectos de Age, Married o IL6, habría imaginado que no estaría comparando AIC en esos dos modelos, sino más bien en diferencias en AIC con la eliminación de covariables de interés dentro de la misma estructura de modelado.

DWin
fuente