¿Por qué hay que usar REML (en lugar de ML) para elegir entre modelos var-covar anidados?

16

Varias descripciones sobre la selección del modelo sobre los efectos aleatorios de los modelos lineales mixtos indican el uso de REML. Sé la diferencia entre REML y ML en algún nivel, pero no entiendo por qué REML debe usarse porque ML está sesgado. Por ejemplo, ¿es incorrecto realizar un LRT en un parámetro de varianza de un modelo de distribución normal usando ML (ver el código a continuación)? No entiendo por qué es más importante ser imparcial que ser ML, en la selección del modelo. Creo que la respuesta final debe ser "porque la selección del modelo funciona mejor con REML que con ML", pero me gustaría saber un poco más que eso. No leí las derivaciones de LRT y AIC (no soy lo suficientemente bueno como para entenderlas a fondo), pero si REML se usa explícitamente en las derivaciones, solo saber que será realmente suficiente (por ejemplo,

n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)

loglik1 <- function(p,x,y){
   a <- p[1]
   b <- p[2]
   alpha <- p[3]
  -sum(dnorm(y,a+b*x,alpha,log=T))
}

loglik2 <- function(p,x,y){
   a <- p[1]
   b <- p[2]
   alpha <- p[3]
   beta <- p[4]
  -sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}

m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value
sutileza
fuente
1
Sobre REML y AIC, debería echar un vistazo a esta pregunta .
Elvis

Respuestas:

13

Una respuesta muy corta: el REML es un ML, por lo que la prueba basada en REML es correcta de todos modos. Como la estimación de los parámetros de varianza con REML es mejor, es natural usarlo.

¿Por qué es REML un ML? Considere, por ejemplo, un modelo con X R n × p , Z R n × q , y β R p es el vector de los efectos fijos, u N ( 0 , τ I q ) es el vector de efectos aleatorios, y e N ( 0 , σ 2 I n )

Y=Xβ+Zu+e
XRn×pZRn×qβRpuN(0,τIq)eN(0,σ2In). La probabilidad restringida se puede obtener considerando contrastes para "eliminar" los efectos fijos. Más precisamente, supongamos que C R ( n - p ) × n , de modo que C X = 0 y C C = I n - p (es decir, las columnas de C son una base ortonormal del espacio vectorial ortogonal al espacio generado por las columnas de X ); entonces C Y = C Z u +npCR(np)×nCX=0CC=InpCX con ϵ N ( 0 , σ 2 I n - p ) , y la probabilidad de τ , σ 2 dado C Y es la probabilidad restringida.
CY=CZu+ϵ
ϵN(0,σ2Inp)τ,σ2CY
Elvis
fuente
Buena respuesta (+1), ¿estoy en lo cierto al decir que la matriz depende del modelo para el promedio? Entonces, ¿solo puede comparar las estimaciones REML para la misma matriz C ? CC
Sí, depende de X (editaré la respuesta en un minuto para que quede claro), por lo que sus modelos anidados deben tener las mismas variables con efectos fijos. CX
Elvis
¡REML no es un ML! El ML se define de manera única para un modelo de probabilidad dado, pero el REML depende de la parametrización de efectos fijos. Vea, por ejemplo, este comentario de Doug Bates (así como muchos otros históricos sobre modelos mixtos R-SIG).
Livius
1
@Livius Creo que mi respuesta establece con suficiente claridad cómo se construye la probabilidad restringida. Se es una probabilidad, simplemente no es la probabilidad dada la observada en el modelo escrito en la ecuación primera mostrado, pero dado el vector proyectado C Y en el modelo escrito en la segunda muestra ecuación. El REML es el ML obtenido de esta probabilidad. YCY
Elvis
2
Creo que ese es el punto de las protestas de DBates sobre este tema: es un modelo diferente, y es un modelo para el cual las comparaciones son difíciles porque el modelo y la parametrización están entrelazados. Por lo tanto, no está calculando el ML para su modelo original, sino el ML para un modelo diferente que surge de una parametrización particular de su modelo original. Por lo tanto, los modelos ajustados a REML con estructuras de efectos fijos anidados ya no son modelos anidados (como mencionó anteriormente). Pero los modelos ajustados a ML todavía están anidados, porque estás maximizando la probabilidad en el modelo especificado.
Livius
9

Las pruebas de razón de probabilidad son pruebas de hipótesis estadísticas que se basan en una razón de dos probabilidades. Sus propiedades están vinculadas a la estimación de máxima verosimilitud (MLE). (ver, por ejemplo, Estimación de máxima verosimilitud (MLE) en términos simples ).

En su caso (vea la pregunta), desea '' elegir '' entre dos modelos var-covar anidados, supongamos que desea elegir entre un modelo donde var-covar es un modelo donde var-covar es Σ s donde el segundo (modelo simple) es un caso especial del primero (el general). ΣgΣs

La prueba se basa en la relación de probabilidad . Donde Σ s y Σ g son la estimadores de máxima verosimilitud.LR=2(log(Ls(Σ^s))log(Lg(Σ^g))Σ^sΣ^g

La estadística es, asintóticamente (!) Χ 2 . LR χ2

Se sabe que los estimadores de máxima verosimilitud son consistentes, sin embargo, en muchos casos están sesgados. Este es el caso de los estimadores de la varianza y Σ g , puede ser la demostración de que están sesgados. Esto se debe a que se calculan utilizando una media que se derivó de los datos, de modo que la dispersión alrededor de este 'promedio estimado' es menor que la propagación alrededor de la media verdadera (ver, por ejemplo, explicación intuitiva para dividir entre n - 1 al calcular la desviación estándar ? )Σ^sΣ^gn1

La estadística anterior es χ 2 en muestras grandes, esto es sólo por el hecho de que, en muestras grandes, Σ s y Σ g convergen a sus valores verdaderos (MLE son consistentes). (Nota: en el enlace anterior, para muestras muy grandes, dividir entre n o entre (n-1), no hará ninguna diferencia)LRχ2Σ^sΣ^g

Para muestras más pequeñas, el MLE estimaciones de Σ s y Σ g estará sesgada y por lo tanto la distribución de L R se desvíe de χ 2 , mientras que las estimaciones REML darán estimaciones objetivas para Σ s y Σ g , por lo que si se utiliza , para la selección del modelo var-covar, el REML estima que la L R para las muestras más pequeñas se aproximará mejor por el χ 2 .Σ^sΣ^gLRχ2ΣsΣgLRχ2

Tenga en cuenta que REML solo debe usarse para elegir entre estructuras var-covar anidadas de modelos con la misma media, para modelos con diferentes medios, el REML no es apropiado, para modelos con diferentes medios uno debe usar ML.


fuente
La afirmación "La estadística LR es, asintóticamente (!) Χ2" no es cierta en este caso. Esto se debe a que si está anidado en Σ g , entonces Σ s está en el límite de Σ g . En este caso, la distribución χ 2 no se cumple. Por ejemplo, vea aquíΣsΣgΣsΣgχ2
Cliff AB el
@Cliff AB, esto es lo que se explica debajo de esa declaración y es la razón por la que debe usar REML.
-4

Tengo una respuesta que tiene más que ver con el sentido común que con las estadísticas. Si observa PROC MIXED en SAS, la estimación se puede realizar con seis métodos:

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_mixed_sect008.htm

pero REML es el valor predeterminado. ¿Por qué? Aparentemente, la experiencia práctica demostró que tiene el mejor rendimiento (por ejemplo, la menor posibilidad de problemas de convergencia). Por lo tanto, si su objetivo es alcanzable con REML, entonces tiene sentido usar REML en lugar de los otros cinco métodos.

James
fuente
2
Tiene que ver con la 'teoría de la muestra grande' y el sesgo de las estimaciones de MLE, vea mi respuesta.
1
"Es el valor predeterminado en SAS" no es una respuesta aceptable a una pregunta de "por qué" en este sitio.
Paul
Los valores p para modelos mixtos proporcionados por SAS por defecto no están disponibles por diseño en la biblioteca lme4 para R porque no son confiables ( stat.ethz.ch/pipermail/r-help/2006-May/094765.html ). Por lo tanto, "SAS predeterminado" puede ser incluso incorrecto.
Tim