Varias descripciones sobre la selección del modelo sobre los efectos aleatorios de los modelos lineales mixtos indican el uso de REML. Sé la diferencia entre REML y ML en algún nivel, pero no entiendo por qué REML debe usarse porque ML está sesgado. Por ejemplo, ¿es incorrecto realizar un LRT en un parámetro de varianza de un modelo de distribución normal usando ML (ver el código a continuación)? No entiendo por qué es más importante ser imparcial que ser ML, en la selección del modelo. Creo que la respuesta final debe ser "porque la selección del modelo funciona mejor con REML que con ML", pero me gustaría saber un poco más que eso. No leí las derivaciones de LRT y AIC (no soy lo suficientemente bueno como para entenderlas a fondo), pero si REML se usa explícitamente en las derivaciones, solo saber que será realmente suficiente (por ejemplo,
n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)
loglik1 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
-sum(dnorm(y,a+b*x,alpha,log=T))
}
loglik2 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
beta <- p[4]
-sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}
m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value
Respuestas:
Una respuesta muy corta: el REML es un ML, por lo que la prueba basada en REML es correcta de todos modos. Como la estimación de los parámetros de varianza con REML es mejor, es natural usarlo.
¿Por qué es REML un ML? Considere, por ejemplo, un modelo con X ∈ R n × p , Z ∈ R n × q , y β ∈ R p es el vector de los efectos fijos, u ∼ N ( 0 , τ I q ) es el vector de efectos aleatorios, y e ∼ N ( 0 , σ 2 I n )
fuente
Las pruebas de razón de probabilidad son pruebas de hipótesis estadísticas que se basan en una razón de dos probabilidades. Sus propiedades están vinculadas a la estimación de máxima verosimilitud (MLE). (ver, por ejemplo, Estimación de máxima verosimilitud (MLE) en términos simples ).
En su caso (vea la pregunta), desea '' elegir '' entre dos modelos var-covar anidados, supongamos que desea elegir entre un modelo donde var-covar es un modelo donde var-covar es Σ s donde el segundo (modelo simple) es un caso especial del primero (el general).Σg Σs
La prueba se basa en la relación de probabilidad . Donde Σ s y Σ g son la estimadores de máxima verosimilitud.LR=−2(log(Ls(Σ^s))−log(Lg(Σ^g)) Σ^s Σ^g
La estadística es, asintóticamente (!) Χ 2 .LR χ2
Se sabe que los estimadores de máxima verosimilitud son consistentes, sin embargo, en muchos casos están sesgados. Este es el caso de los estimadores de la varianza y Σ g , puede ser la demostración de que están sesgados. Esto se debe a que se calculan utilizando una media que se derivó de los datos, de modo que la dispersión alrededor de este 'promedio estimado' es menor que la propagación alrededor de la media verdadera (ver, por ejemplo, explicación intuitiva para dividir entre n - 1 al calcular la desviación estándar ? )Σ^s Σ^g n−1
La estadística anterior es χ 2 en muestras grandes, esto es sólo por el hecho de que, en muestras grandes, Σ s y Σ g convergen a sus valores verdaderos (MLE son consistentes). (Nota: en el enlace anterior, para muestras muy grandes, dividir entre n o entre (n-1), no hará ninguna diferencia)LR χ2 Σ^s Σ^g
Para muestras más pequeñas, el MLE estimaciones de Σ s y Σ g estará sesgada y por lo tanto la distribución de L R se desvíe de χ 2 , mientras que las estimaciones REML darán estimaciones objetivas para Σ s y Σ g , por lo que si se utiliza , para la selección del modelo var-covar, el REML estima que la L R para las muestras más pequeñas se aproximará mejor por el χ 2 .Σ^s Σ^g LR χ2 Σs Σg LR χ2
Tenga en cuenta que REML solo debe usarse para elegir entre estructuras var-covar anidadas de modelos con la misma media, para modelos con diferentes medios, el REML no es apropiado, para modelos con diferentes medios uno debe usar ML.
fuente
Tengo una respuesta que tiene más que ver con el sentido común que con las estadísticas. Si observa PROC MIXED en SAS, la estimación se puede realizar con seis métodos:
http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_mixed_sect008.htm
pero REML es el valor predeterminado. ¿Por qué? Aparentemente, la experiencia práctica demostró que tiene el mejor rendimiento (por ejemplo, la menor posibilidad de problemas de convergencia). Por lo tanto, si su objetivo es alcanzable con REML, entonces tiene sentido usar REML en lugar de los otros cinco métodos.
fuente