¿Cómo interpreto las 'correlaciones de efectos fijos' en mi salida glmer?

Tengo el siguiente resultado:

Generalized linear mixed model fit by the Laplace approximation 
Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) 

 AIC   BIC    logLik deviance
 4062  4093  -2022   4044

Random effects:
Groups    Name        Variance Std.Dev.
landscape (Intercept) 0.82453  0.90804 
Number of obs: 239, groups: landscape, 45

Fixed effects:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  2.65120    0.14051  18.868   <2e-16     
sMFS2        0.26922    0.17594   1.530   0.1260    
sAG2         0.09268    0.14529   0.638   0.5235    
sSHDI2       0.28345    0.17177   1.650   0.0989  
sbare        0.41388    0.02976  13.907   <2e-16 
seasonlate  -0.50165    0.02729 -18.384   <2e-16 
cropforage   0.79000    0.06724  11.748   <2e-16 
cropsoy      0.76507    0.04920  15.551   <2e-16 

Correlation of Fixed Effects:
           (Intr) sMFS2  sAG2   sSHDI2 sbare  sesnlt crpfrg
sMFS2      -0.016                                          
sAG2        0.006 -0.342                                   
sSHDI2     -0.025  0.588 -0.169                            
sbare      -0.113 -0.002  0.010  0.004                     
seasonlate -0.034  0.005 -0.004  0.001 -0.283              
cropforage -0.161 -0.005  0.012 -0.004  0.791 -0.231       
cropsoy    -0.175 -0.022  0.013  0.013  0.404 -0.164  0.557

Todas mis variables continuas (denotadas por un pequeño santes del nombre de la variable) están estandarizadas (puntajes z). seasones una variable categórica con 2 niveles (temprano y tardío), y cropes una variable categórica con 3 niveles (maíz, forraje y soja).

Esta correlación de la matriz de efectos fijos realmente me confunde, porque todas las correlaciones tienen el signo opuesto que tienen cuando miro las regresiones simples de pares de variables. es decir, la matriz de correlación de efectos fijos sugiere una fuerte correlación positiva entre cropforagey sbare, cuando de hecho hay una correlación NEGATIVA muy fuerte entre estas variables, los cultivos forrajeros tendían a tener mucho menos suelo desnudo en comparación con los cultivos de maíz y soja. Los pares de variables continuas tienen el mismo problema, la correlación de la matriz de efectos fijos dice que todo es lo contrario de lo que debería ser ... ¿Podría esto ser debido a la complejidad del modelo (no es una simple regresión)? ¿Podría tener algo que ver con el hecho de que las variables están estandarizadas?

Gracias.

mixed-model poisson-distribution lme4-nlme susie
fuente

Respuestas:

La salida de "correlación de efectos fijos" no tiene el significado intuitivo que la mayoría le atribuiría. Específicamente, no se trata de la correlación de las variables (como notas de OP). De hecho, se trata de la correlación esperada de los coeficientes de regresión. Aunque esto puede hablar de multicolinealidad, no necesariamente. En este caso, le dice que si volviera a hacer el experimento y resultara que el coeficiente para cropforagese redujo, es probable que también lo haga el coeficiente de sbare.

En parte, su libro "Análisis de datos lingüísticos: una introducción práctica a las estadísticas usando R" que trata sobre lme4 Baayen suprime esa parte de la salida y la declara útil solo en casos especiales. Aquí hay un mensaje de listserv donde el propio Bates describe cómo interpretar esa parte de la salida:

Es una correlación aproximada del estimador de los efectos fijos. (Incluyo la palabra "aproximada" porque debería hacerlo, pero en este caso la aproximación es muy buena). No estoy seguro de cómo explicarlo mejor que eso. Suponga que tomó una muestra de MCMC de los parámetros del modelo, entonces esperaría que la muestra de los parámetros de efectos fijos muestre una estructura de correlación como esta matriz.

russellpierce
fuente

Lo siento, esta será probablemente una pregunta tonta, pero ¿por qué es importante considerar esa correlación? Quiero decir, ¿en qué situaciones debe considerarse esa salida?

mtao

@Teresa Depende de para qué lo estés usando. Si te interesa la interpretación, entonces te dice lo confusa que son dos fuentes de efecto. Si le importa la predicción, le informa un poco sobre cómo podrían ser otros modelos de predicción y le da una idea de cómo podría cambiar el modelo si elimina los predictores.

russellpierce 01 de

Entonces, imagine que tengo dos variables en esa salida con una correlación de 0.90, por ejemplo. En términos de interpretación, supongo que debería descartar uno de ellos, porque son "confusos" y parecen estar diciendo la misma información. En cuanto a la predicción, si descarto uno de ellos, otros modelos no deberían cambiar tanto, ya que están correlacionados, ¿estoy en lo cierto? ¿O estoy interpretando esto incorrectamente?

mtao

Sabes, creo que estás haciendo eco de lo que dije correctamente; pero, reflexionando, no estoy 100% seguro de tener razón. Puede que le sirva mejor abrir una nueva pregunta, que tendrá más ojos en su pregunta y aumentará la probabilidad de que reciba una respuesta correcta.

russellpierce 05 de

@russellpierce, gracias por esta respuesta. Sin embargo, una pregunta es que aprendí que la multicolinealidad ocurre cuando los predictores se correlacionan entre sí. Pero en su respuesta usted dice que es la correlación de los coeficientes de regresión (no de los predictores) lo que puede hablar de multicolinealidad. ¿Por qué no solo correlacionar los predictores mismos en lugar de los coeficientes estimados?

locus

Si sus correlaciones negativas y positivas son iguales en su valor y solo su signo difiere, está ingresando la variable por error. Pero no creo que este sea el caso para ti, ya que ya pareces bastante avanzado en estadísticas.

La inconsistencia que está experimentando puede ser y probablemente sea causada por la multicolinealidad. Significa cuando algunas variables independientes comparten algunos efectos superpuestos, o en otras palabras, se correlacionan entre sí. por ejemplo, modelar las variables "tasa de crecimiento" y "tamaño tumoral" puede causar multicolinealidad, ya que es posible y probable que los tumores más grandes tengan tasas de crecimiento más altas (antes de ser detectados) per se. Esto puede confundir al modelo. Y si su modelo tiene pocas variables independientes que se correlacionan entre sí, la interpretación de los resultados a veces puede ser bastante difícil. A veces conduce a coeficientes totalmente extraños, incluso en tal medida que el signo de algunas de las correlaciones se invierte.

Primero debe detectar las fuentes de multicolinealidad y tratarlas y luego volver a ejecutar su análisis.

Vic
fuente

-1; engañoso. OP no ingresó sus variables incorrectamente y la multicolinealidad puede no ser un problema. Una correlación entre los efectos fijos en bruto podría hablar hasta este punto, pero la paradoja de Simpson puede permitir que ese enfoque lo lleve en la dirección incorrecta.

russellpierce

¿Por qué "engañoso"? ¿Qué parte fue engañosa? Hablé muy claramente y evité inferir conclusiones claras. Lo que dije es de hecho uno de los signos de multicolinealidad y nos dice que también debemos verificar los VIF. Pero no entiendo cómo sabe o está seguro de que "el OP no ingresó sus variables incorrectamente y la multicolinealidad puede no ser un problema".

Vic

Además, ni siquiera has leído mi publicación por completo (y la has votado negativamente y la llamas engañosa). Si lo hubiera hecho, ¿había visto que sugerí que el OP debería verificar los VIF (como indicadores oficiales para multiC) para asegurarse de si esas altas correlaciones realmente apuntan a MC o no? pero de todos modos, estoy abierto a aprender siempre que esté libre de arrogancia y ataques personales.

Vic

@Vic: No vi tus comentarios hasta ahora. No quise que vieras mi respuesta como un ataque personal. En mi opinión, fue engañoso y proporcioné lo que creo que es la respuesta correcta anterior. Leí su publicación en su totalidad en ese momento. No sé si profundicé en los comentarios o no. Mantengo mi voto negativo.

russellpierce

... pero sí permito que pueda estar equivocado en ese juicio. Sin embargo, parecía mejor explicar por qué voté en contra en lugar de solo votar en contra.

russellpierce

Puede ser útil mostrar que esas correlaciones entre los efectos fijos se obtienen al convertir el "vcov" del modelo en una matriz de correlación. Si fites su modelo lme4 ajustado, entonces

vc <- vcov(fit)

# diagonal matrix of standard deviations associated with vcov
S <- sqrt(diag(diag(vc), nrow(vc), nrow(vc)))

# convert vc to a correlation matrix
solve(S) %*% vc %*% solve(S)

y las correlaciones entre los efectos fijos son las entradas fuera de diagonal.

Ed Merkle
fuente