Cálculo de

13

He estado leyendo sobre el cálculo valores de en modelos mixtos y después de leer las preguntas frecuentes de R-sig, otras publicaciones en este foro (vincularía algunas pero no tengo suficiente reputación) y varias otras referencias entiendo que usando valores en el contexto de modelos mixtos son complicados.R 2R2R2

Sin embargo, recientemente me he encontrado con estos dos documentos a continuación. Si bien estos métodos parecen prometedores (para mí), no soy un estadístico y, como tal, me preguntaba si alguien más tendría alguna idea sobre los métodos que proponen y cómo se compararían con otros métodos que se han propuesto.

Nakagawa, Shinichi y Holger Schielzeth. "Un método general y simple para obtener R2 a partir de modelos lineales generalizados de efectos mixtos". Methods in Ecology and Evolution 4.2 (2013): 133-142.

Johnson, Paul CD. "Extensión de R2GLMM de Nakagawa & Schielzeth a modelos de pendientes aleatorias". Métodos en ecología y evolución (2014).

El método is también se puede implementar utilizando la función r.squaredGLMM en el paquete MuMIn que proporciona la siguiente descripción del método.

Para los modelos de efectos mixtos, se puede clasificar en dos tipos. marginal representa la varianza explicada por factores fijos, y se define como: condicional se interpreta como la varianza explicada por factores fijos y aleatorios (es decir, todo el modelo), y se calcula según la ecuación: donde es la varianza de los componentes de efectos fijos, y es la suma de todos los componentes de la varianza (grupo, individual, etc.),R 2R2R2 R2RGLMM(c)2=(σ 2 f +(σ 2 l ))

RGLMM(m)2=σf2σf2+(σl2)+σe2+σd2
R2 σ 2 f(σ 2 l )σ 2 l σ 2 d
RGLMM(c)2=(σf2+(σl2))(σf2+(σl2)+σe2+σd2
σf2(σl2)σl2es la varianza debida a la dispersión aditiva y es la varianza específica de la distribución. σd2

En mi análisis, estoy mirando datos longitudinales y estoy principalmente interesado en la varianza explicada por los efectos fijos en el modelo

library(MuMIn) 
library(lme4)

fm1 <- lmer(zglobcog ~ age_c + gender_R2 + ibphdtdep + iyeareducc + apoegeno + age_c*apoegeno + (age_c | pathid), data = dat, REML = FALSE, control = lmerControl(optimizer = "Nelder_Mead"))

# Jarret Byrnes (correlation between the fitted and the observed values)
r2.corr.mer <- function(m) {
   lmfit <-  lm(model.response(model.frame(m)) ~ fitted(m))
   summary(lmfit)$r.squared
}

r2.corr.mer(fm1)
[1] 0.8857005

# Xu 2003
1-var(residuals(fm1))/(var(model.response(model.frame(fm1))))
[1] 0.8783479

# Nakagawa & Schielzeth's (2013)
r.squaredGLMM(fm1)
      R2m       R2c 
0.1778225 0.8099395 
Andrews
fuente
He editado tu publicación para usar el formato mathjax. Verifique que no haya introducido ningún error accidentalmente.
Sycorax dice Reinstate Monica
Tu pregunta carece de una pregunta real hasta donde yo entiendo. ¿Puedes aclarar lo que quieres? ¿Una recomendación de qué usar?
Henrik
Hola @Henrik, estaba interesado en una recomendación de qué usar, sí, pero también en términos más generales cómo se comparan los diferentes métodos y cuáles son las diferencias.
Andrews
Creo que las ecuaciones originales y anteriores están equivocadas. Esto no se debe a los cambios de @ user777. Los dos términos a la derecha deben estar en el denominador. Mira esto .
Cyrille
Este error probablemente se debió a que la documentación del paquete MuMIn no tiene los corchetes de cierre .
Cyrille

Respuestas:

11

Respondo pegando la respuesta de Douglas Bates en la lista de correo R-Sig-ME, el 17 de diciembre de 2014, sobre la cuestión de cómo calcular una estadística para modelos mixtos lineales generalizados, que creo que es una lectura obligatoria para cualquier persona interesada en tal cosa. Bates es el autor original del paquete para R y coautor , así como coautor de un conocido libro sobre modelos mixtos , y CV se beneficiará al tener el texto en una respuesta, en lugar de solo un enlace a eso.R2lme4nlme

Debo admitir que me pongo un poco nervioso cuando la gente habla del "R2 para GLMM". R2 para un modelo lineal está bien definido y tiene muchas propiedades deseables. Para otros modelos, se pueden definir diferentes cantidades que reflejan algunas pero no todas estas propiedades. Pero esto no es calcular un R2 en el sentido de obtener un número que tenga todas las propiedades que tiene el R2 para los modelos lineales. Por lo general, hay varias formas diferentes en que tal cantidad podría definirse. Especialmente para GLM y GLMM antes de que pueda definir la "proporción de varianza de respuesta explicada", primero debe definir lo que quiere decir con "varianza de respuesta".

La confusión sobre lo que constituye R2 o los grados de libertad de cualquiera de las otras cantidades asociadas con los modelos lineales aplicados a otros modelos proviene de confundir la fórmula con el concepto. Aunque las fórmulas se derivan de modelos, la derivación a menudo involucra matemáticas bastante sofisticadas. Para evitar una derivación potencialmente confusa y simplemente "ir al grano", es más fácil presentar las fórmulas. Pero la fórmula no es el concepto. Generalizar una fórmula no es equivalente a generalizar el concepto. Y esas fórmulas casi nunca se usan en la práctica, especialmente para modelos lineales generalizados, análisis de varianza y efectos aleatorios. Tengo un "meta-teorema" de que la única cantidad realmente calculada de acuerdo con las fórmulas dadas en los textos introductorios es la media muestral.

Puede parecer que estoy siendo un viejo gruñón acerca de esto, y tal vez lo soy, pero el peligro es que la gente espera que una cantidad "similar a R2" tenga todas las propiedades de un R2 para modelos lineales. No puede No hay forma de generalizar todas las propiedades a un modelo mucho más complicado como un GLMM.

Una vez estuve en el comité revisando una propuesta de tesis para Ph.D. candidatura. La propuesta era examinar, creo, 9 fórmulas diferentes que podrían considerarse formas de calcular un R2 para un modelo de regresión no lineal para decidir cuál era el "mejor". Por supuesto, esto se haría a través de un estudio de simulación con solo un par de modelos diferentes y solo unos pocos conjuntos diferentes de valores de parámetros para cada uno. Mi sugerencia de que este era un ejercicio completamente sin sentido no fue bien recibida.

Robert Long
fuente
10

Después de examinar la literatura, me encontré con el siguiente artículo que compara varios métodos diferentes para calcular los valores para modelos mixtos, donde los métodos (MVP) son equivalentes al método propuesto por Nakagawa y Schielzeth.R 2R2R2

  • Lahuis, D et al (2014) Explicaron las medidas de varianza para modelos multinivel. Métodos de investigación organizacional.

ingrese la descripción de la imagen aquí

En general, la mayoría de las medidas (Fórmula, Fórmula, (OLS) y (MVP)) exhibieron niveles aceptables de sesgo, consistencia y eficiencia en todas las condiciones y modelos. Además, la diferencia en los valores de sesgo promedio para estas medidas fue pequeña. Formula y Formula fueron las menos sesgadas en los modelos de intercepción aleatoria y Formula y (MVP) fueron las menos sesgadas en los modelos de pendiente aleatoria. En términos de eficiencia, la Fórmula y (MVP) tuvieron los valores de desviación estándar más bajos en el modelo de intercepción aleatoria. (MVP) y (OLS) tuvieron las desviaciones estándar más bajas en el modelo de pendiente aleatoria. En general, la fórmula no era un estimador eficiente.R 2 R 2 R 2 R 2 R 2R2R2R2R2R2R2

Andrews
fuente