REML vs ML stepAIC

10

Me siento abrumado después de intentar profundizar en la literatura sobre cómo ejecutar mi análisis de modelo mixto luego de usar AIC para seleccionar el mejor modelo o modelos. No creo que mis datos sean tan complicados, pero estoy buscando confirmación de que lo que he hecho es correcto y luego les aconsejo cómo proceder. No estoy seguro de si debería usar lme o lmer y luego con cualquiera de esos, si debería usar REML o ML.

Tengo un valor de selección y quiero saber qué covariables influyen mejor en ese valor y permiten predicciones. Aquí hay algunos datos de ejemplo inventados y mi código para mi prueba con la que estoy trabajando:

ID=as.character(rep(1:5,3))
season=c("s","w","w","s","s","s","s","w","w","w","s","w","s","w","w")
time=c("n","d","d","n","d","d","n","n","n","n","n","n","d","d","d")
repro=as.character(rep(1:3,5))
risk=runif(15, min=0, max=1.1)
comp1=rnorm(15, mean = 0, sd = 1)
mydata=data.frame(ID, season, time, repro, risk, comp1)
c1.mod1<-lmer(comp1~1+(1|ID),REML=T,data=mydata)
c1.mod2<-lmer(comp1~risk+(1|ID),REML=T,data=mydata)
c1.mod3<-lmer(comp1~season+(1|ID),REML=T,data=mydata)
c1.mod4<-lmer(comp1~repro+(1|ID),REML=T,data=mydata)
c1.mod5<-lmer(comp1~time+(1|ID),REML=T,data=mydata)
c1.mod6<-lmer(comp1~season+repro+time+(1|ID),REML=T,data=mydata)
c1.mod7<-lmer(comp1~risk+season+season*time+(1|ID),REML=T,data=mydata)

Tengo ~ 19 modelos que exploran estos datos con varias combinaciones y términos de interacción de hasta 2 vías, pero siempre con ID como efecto aleatorio y comp1 como mi variable dependiente.

  • Q1. ¿Cuál usar? lme o lmer? ¿importa?

En ambos, tengo la opción de usar ML o REML, y obtengo respuestas drásticamente diferentes. Al usar ML seguido de AIC, termino con 6 modelos, todos con valores de AIC similares y las combinaciones de modelos simplemente no tienen sentido, mientras que REML da como resultado que 2 de los modelos más probables sean los mejores. Sin embargo, cuando ejecuto REML no puedo usar anova por más tiempo.

  • Q2 Cuál es la razón principal para usar ML sobre REML debido al uso con ANOVA? Esto no está claro para mí.

Todavía no puedo ejecutar stepAIC o no conozco otra forma de reducir esos 19 modelos.

  • Q3. ¿Hay alguna manera de usar stepAIC en este momento?
Kerry
fuente
3
Para Q2, ML es necesario porque las comparaciones que usan REML no son válidas cuando cambian los efectos fijos. Una posible pregunta relacionada útil está aquí: stats.stackexchange.com/a/16015/3601
Aaron dejó Stack Overflow el
@ Aaron Ya había visto esa pregunta antes, pero aún estaba confundido. ¿Usar REML solo "funciona" cuando cambia el efecto aleatorio? Obviamente no entiendo lo suficiente de ML vs REML. ¡Sin embargo, gracias, eso ayuda con una de mis preguntas!
Kerry
Si, eso es correcto. Al comparar modelos, REML solo debe usarse si los modelos tienen los mismos efectos fijos. Respuesta ampliada a continuación.
Aaron dejó Stack Overflow el

Respuestas:

16

Q1. ¿Cuál usar? lme o lmer? ¿importa? Cualquiera esta bien. Te darán los mismos ajustes. lmele dará valores p, y lmerno lo hará, pero eso es más de lo que quiero entrar aquí. La referencia más famosa es una de las publicaciones de Doug Bates en la lista de correo de R-help aquí .

(Advertencia: usan algoritmos ligeramente diferentes, por lo que potencialmente hay algunos casos computacionalmente difíciles en los que uno u otro podrían funcionar mejor, pero son muy raros en la práctica y, de hecho, lo más probable es que apunten a algún tipo de especificación errónea del modelo. Ver Completamente diferente resultados de lmer () y lme () .)

Q2 Cuál es la razón principal para usar ML sobre REML debido al uso con ANOVA? Esto no está claro para mí. ML es necesario porque las comparaciones que usan REML no son válidas cuando cambian los efectos fijos. Una posible pregunta relacionada útil está aquí: https://stats.stackexchange.com/a/16015/3601 . Para responder a su pregunta en el comentario anterior, sí, al comparar modelos, REML solo debe usarse si los modelos tienen los mismos efectos fijos (es decir, cuando solo cambian los efectos aleatorios). La probabilidad de REML depende de qué efectos fijos hay en el modelo, por lo que no son comparables si los efectos fijos cambian. Sin embargo, generalmente se considera que REML proporciona mejores estimaciones para los efectos aleatorios, por lo que el consejo habitual es ajustar su mejor modelo usando REML para su inferencia final y su informe.

Q3. ¿Hay alguna manera de usar stepAIC en este momento? Para comparar entre sus 19 modelos que tienen sentido en su situación, simplemente compare el AIC para todos ellos. No hay razón para usar un procedimiento por pasos. Los procedimientos paso a paso generalmente se consideran anticuados hoy en día, ya que no garantizan que se encuentre el mejor modelo, y las computadoras facilitan la comparación de muchos modelos.

Aaron dejó Stack Overflow
fuente
1

Al investigar más, también he encontrado estos recursos que respaldan los enlaces que Aaron ha proporcionado y son buenas lecturas para aquellos que comienzan como yo. Los capítulos vinculados en http://lme4.r-forge.r-project.org/ para ver ejemplos, consulte el enlace de diapositivas http://lme4.r-forge.r-project.org/slides/ en la misma página del proyecto . Muchos de los cursos cortos incluso tienen código R de ejemplo que fue de gran ayuda.
También esta breve respuesta del Dr. Bolker http://r.789695.n4.nabble.com/lme-vs-lmer-how-do-they-differ-td2534332.html

Kerry
fuente