Coeficiente de correlación intraclase en modelo mixto con pendientes aleatorias

10

Tengo el siguiente modelo m_plotequipado con lme4::lmerefectos aleatorios cruzados para los participantes ( lfdn) y los elementos ( content):

Random effects:
 Groups   Name             Variance Std.Dev. Corr                                     
 lfdn     (Intercept)      172.173  13.121                                            
          role1             62.351   7.896    0.03                                    
          inference1        24.640   4.964    0.08 -0.30                              
          inference2        52.366   7.236   -0.05  0.17 -0.83                        
          inference3        21.295   4.615   -0.03  0.22  0.86 -0.77                  
 content  (Intercept)       23.872   4.886                                            
          role1              2.497   1.580   -1.00                                    
          inference1        18.929   4.351    0.52 -0.52                              
          inference2        14.716   3.836   -0.16  0.16 -0.08                        
          inference3        17.782   4.217   -0.17  0.17  0.25 -0.79                  
          role1:inference1   9.041   3.007    0.10 -0.10 -0.10 -0.21  0.16            
          role1:inference2   5.968   2.443   -0.60  0.60 -0.11  0.78 -0.48 -0.50      
          role1:inference3   4.420   2.102    0.30 -0.30  0.05 -0.97  0.71  0.37 -0.90
 Residual                  553.987  23.537                                            
Number of obs: 3480, groups:  lfdn, 435 content, 20

Quiero saber los coeficientes de correlación intraclase (ICC) para participantes y artículos. Gracias a esta gran respuesta , en principio sé cómo obtener el ICC para mi modelo. Sin embargo, no estoy seguro de si incluir las pendientes aleatorias o no:

vars <- lapply(summary(m_plot)$varcor, diag)
resid_var <- attr(summary(m_plot)$varcor, "sc")^2
total_var <- sum(sapply(vars, sum), resid_var)

# with random slopes
sapply(vars, sum)/total_var
##       lfdn    content 
## 0.33822396 0.09880349

# only random intercepts:
sapply(vars, function(x) x[1]) / total_var
##   lfdn.(Intercept) content.(Intercept) 
##         0.17496587          0.02425948 

¿Cuál es la medida apropiada para la correlación entre dos respuestas del mismo participante respectivo al mismo ítem?

Henrik
fuente
1
Merlo et al 2005 "Un breve tutorial conceptual sobre análisis multinivel en epidemiología social: investigar fenómenos contextuales en diferentes grupos de personas" podría ser una referencia útil.
N Brouwer
@Henrik, ¿alguna vez encontraste una respuesta a esta pregunta? Estoy interesado también
Patrick S. Forscher
2
@ PatrickS.Forscher Hasta donde yo entiendo, ICC no tiene sentido con pendientes aleatorias. He aprendido esto de Jake Westfall.
Henrik
¿Tienes un enlace a una lectura relevante por casualidad?
Patrick S. Forscher
1
@ PatrickS.Forscher Como puede ver, Jake Westfall ahora proporcionó una gran respuesta.
Henrik

Respuestas:

8

Básicamente, no hay un número único o una estimación que pueda resumir el grado de agrupación en un modelo de pendientes aleatorias.

La correlación intraclase (ICC) solo se puede escribir como una proporción simple de variaciones en modelos de intercepciones aleatorias. Para ver por qué, aquí se puede encontrar un boceto de la derivación de la expresión ICC .

Cuando arroja pendientes aleatorias en la ecuación del modelo, seguir los mismos pasos conduce a la expresión ICC en la página 5 de este documento . Como puede ver, esa expresión complicada es una función del predictor X. Para ver más intuitivamente por qué var (Y) depende de X cuando hay pendientes aleatorias, consulte la página 30 de estas diapositivas ("¿Por qué la varianza depende de x? ? ") .

Debido a que el ICC es una función de los predictores (los valores de x), solo se puede calcular para conjuntos particulares de valores de x. Quizás podría intentar algo como informar el ICC en el promedio conjunto de los valores de x, pero esta estimación será demostrablemente inexacta para la mayoría de las observaciones.

Todo lo que he dicho todavía solo se refiere a casos en los que hay un único factor aleatorio. Con múltiples factores aleatorios se vuelve aún más complicado. Por ejemplo, en un proyecto de varios sitios donde los participantes en cada sitio responden a una muestra de estímulos (es decir, 3 factores aleatorios: sitio, participante, estímulo), podríamos preguntar acerca de muchos ICC diferentes: ¿Cuál es la correlación esperada entre dos respuestas? en el mismo sitio, al mismo estímulo, de diferentes participantes? ¿Qué tal en diferentes sitios, el mismo estímulo y diferentes participantes? Y así. @rvl menciona estas complicaciones en la respuesta a la que se vinculó el OP.

Como puede ver, el único caso en el que podemos resumir el grado de agrupación con un solo valor es el caso de solo factor aleatorio de intercepción aleatoria. Debido a que esta es una proporción tan pequeña de los casos del mundo real, los ICC no son tan útiles la mayor parte del tiempo. Entonces, mi recomendación general es que ni siquiera se preocupe por ellos. En cambio, recomiendo simplemente informar los componentes de la varianza (preferiblemente en forma de desviación estándar).

Jake Westfall
fuente