Interpretar tres formas de un "modelo mixto"

Hay una distinción que me hace tropezar con modelos mixtos, y me pregunto si podría obtener algo de claridad. Supongamos que tiene un modelo mixto de datos de conteo. Hay una variable que sabe que quiere como efecto fijo (A) y otra variable para el tiempo (T), agrupada por decir una variable de "Sitio".

Según lo entiendo:

glmer(counts ~ A + T, data=data, family="Poisson") Es un modelo de efectos fijos.

glmer(counts ~ (A + T | Site), data=data, family="Poisson") Es un modelo de efectos aleatorios.

Mi pregunta es cuando tienes algo como:

glmer(counts ~ A + T + (T | Site), data=data, family="Poisson")que es t ¿Es un efecto aleatorio? ¿Un efecto fijo? ¿Qué se está logrando poniendo T en ambos lugares?

¿Cuándo debería aparecer algo solo en la sección de efectos aleatorios de la fórmula del modelo?

r mixed-model lme4-nlme Fomite
fuente

Respuestas:

Esto puede aclararse al escribir la fórmula del modelo para cada uno de estos tres modelos. Deje que sea la observación para la persona en el sitio en cada modelo y defina análoga para referirse a las variables en su modelo. $Y_{ij}$ $i$ $j$ $A_{ij}, T_{ij}$

glmer(counts ~ A + T, data=data, family="Poisson") es el modelo

\log (E (Y_{i j})) = β_{0} + β_{1} A_{i j} + β_{2} T_{i j}

$\log \big( E(Y_{ij}) \big) = \beta_0 + \beta_1 A_{ij} + \beta_2 T_{ij}$

que es solo un modelo de regresión de Poisson ordinario.

glmer(counts ~ (A + T|Site), data=data, family="Poisson") es el modelo

\log (E (Y_{i j})) = α_{0} + η_{j 0} + η_{j 1} A_{i j} + η_{j 2} T_{i j}

$\log \big( E(Y_{ij}) \big) = \alpha_0 + \eta_{j0} + \eta_{j1} A_{ij} + \eta_{j2} T_{ij}$

donde son efectos aleatorios que son compartidos por cada observación realizada por individuos del sitio . Estos efectos aleatorios pueden correlacionarse libremente (es decir, no se realizan restricciones en ) en el modelo que especificó. Para imponer la independencia, debe colocarlos dentro de diferentes corchetes, por ejemplo, lo haría. Este modelo supone que es para todos los sitios pero cada sitio tiene un desplazamiento aleatorio ( ) y tiene una relación lineal aleatoria con ambos . $\eta_{j} = (\eta_{j0}, \eta_{j1}, \eta_{j2}) \sim N(0, \Sigma)$ $j$ $\Sigma$ (A-1|Site) + (T-1|Site) + (1|Site) $\log \big( E(Y_{ij}) \big)$ $\alpha_0$ $\eta_{j0}$ $A_{ij}, T_{ij}$

glmer(counts ~ A + T + (T|Site), data=data, family="Poisson") es el modelo

\log (E (Y_{i j})) = (θ_{0} + γ_{j 0}) + θ_{1} A_{i j} + (θ_{2} + γ_{j 1}) T_{i j}

$\log \big( E(Y_{ij}) \big) = (\theta_0 + \gamma_{j0}) + \theta_1 A_{ij} + (\theta_2 + \gamma_{j1}) T_{ij}$

Entonces ahora tiene alguna relación "promedio" con , dada por los efectos fijos pero esa relación es diferente para cada sitio y esas diferencias son capturadas por los efectos aleatorios, . Es decir, la línea de base se cambia aleatoriamente y las pendientes de las dos variables se cambian aleatoriamente y todos los miembros del mismo sitio comparten el mismo cambio aleatorio. $\log \big( E(Y_{ij}) \big)$ $A_{ij}, T_{ij}$ $\theta_0, \theta_1, \theta_2$ $\gamma_{j0}, \gamma_{j1}, \gamma_{j2}$

que es t ¿Es un efecto aleatorio? ¿Un efecto fijo? ¿Qué se está logrando poniendo T en ambos lugares?

$T$ es una de tus covariables. No es un efecto aleatorio, Sitees un efecto aleatorio. Hay un efecto fijo de que es diferente dependiendo del efecto aleatorio conferido por - en el modelo anterior. Lo que se logra al incluir este efecto aleatorio es permitir la heterogeneidad entre los sitios en la relación entre y . $T$ Site $\gamma_{j1}$ $T$ $\log \big( E(Y_{ij}) \big)$

¿Cuándo debería aparecer algo solo en la sección de efectos aleatorios de la fórmula del modelo?

Esto es una cuestión de lo que tiene sentido en el contexto de la aplicación.

Con respecto a la intercepción: debe mantener la intercepción fija allí por muchas razones (consulte, por ejemplo, aquí ); re: la intercepción aleatoria, , esto actúa principalmente para inducir la correlación entre las observaciones realizadas en el mismo sitio. Si no tiene sentido que exista dicha correlación, entonces el efecto aleatorio debe ser excluido. $\gamma_{j0}$

Con respecto a las pendientes aleatorias, un modelo con solo pendientes aleatorias y sin pendientes fijas refleja la creencia de que, para cada sitio, existe alguna relación entre y sus covariables para cada sitio , pero si promedia esos efectos en todos los sitios, entonces no hay relación. Por ejemplo, si tuviera una pendiente aleatoria en pero no una pendiente fija, sería como decir que el tiempo, en promedio, no tiene ningún efecto (por ejemplo, no hay tendencias seculares en los datos) pero cada uno se dirige en una dirección aleatoria con el tiempo, Lo que podría tener sentido. De nuevo, depende de la aplicación. $\log \big( E(Y_{ij}) \big)$ $T$ Site

Tenga en cuenta que puede ajustar el modelo con y sin efectos aleatorios para ver si esto está sucediendo; no debería ver ningún efecto en el modelo fijo, sino efectos aleatorios significativos en el modelo posterior. Debo advertirle que las decisiones como esta a menudo se toman mejor en función de la comprensión de la aplicación y no a través de la selección del modelo.

Macro
fuente

(+1): escribir la fórmula del modelo para cada modelo es, de hecho, la mejor manera de hacer que las anotaciones R sean más transparentes; ¡buen trabajo!

ocram

@Macro Una pregunta sobre las ecuaciones anteriores (gracias por cierto, por cierto): ¿también tienen el término de error habitual? Si es así, ¿cuál es el subíndice de ese término?

Fomite

Hola, una forma de escribir un GLM es como modelo para (o una versión 'vinculada') como lo he hecho aquí. No hay término de error para el valor esperado, si el modelo se especifica correctamente. Para responder a su pregunta, en GLM estamos especificando la distribución de . La aleatoriedad "sobrante" en un modelo lineal se manifiesta por un término de error normalmente distribuido. Pero, en los GLM no lineales (por ejemplo, poisson, logístico) hay aleatoriedad "incorporada", ya que conocer la tasa de un poisson o un problema de éxito de un ensayo de Bernoulli no le permite predecir una realización sin error. Espero que esto ayude.

E (Y_{i j} | X)

$E(Y_{ij}|X)$

Y_{i j} | X

$Y_{ij}|X$

Macro

Debe tener en cuenta que Tninguno de los términos de su modelo son efectos aleatorios, sino un efecto fijo. Los efectos aleatorios son sólo aquellos efectos que aparecen después de la |en una lmerfórmula!

Puede encontrar una discusión más exhaustiva de lo que hace esta especificación en esta pregunta de preguntas más frecuentes .

De estas preguntas, su modelo debe dar lo siguiente (para su efecto fijo T):

Una pendiente global
Un término de pendientes aleatorias que especifica la desviación de la pendiente general para cada nivel de Site
La correlación entre las pendientes aleatorias.

Y como dijo @ mark999, esta es una especificación común. En los diseños de medidas repetidas, generalmente desea tener pendientes y correlaciones aleatorias para todos los factores de medidas repetidas (dentro de los sujetos).

Consulte el siguiente documento para ver algunos ejemplos (que tiendo a citar siempre aquí):

Judd, CM, Westfall, J. y Kenny, DA (2012). Tratar los estímulos como un factor aleatorio en la psicología social: una solución nueva e integral para un problema generalizado pero en gran parte ignorado. Revista de Personalidad y Psicología Social , 103 (1), 54–69. doi: 10.1037 / a0028347

Henrik
fuente

Una referencia similar de la ecología: Schielzeth, Holger y Wolfgang Forstmeier. 2009. "Conclusiones más allá del apoyo: estimaciones de exceso de confianza en modelos mixtos". Behavioral Ecology 20 (2) (1 de marzo): 416–420. doi: 10.1093 / beheco / arn145. beheco.oxfordjournals.org/content/20/2/416 .

Ben Bolker

Algo debería aparecer solo en la parte aleatoria cuando no está particularmente interesado en su parámetro, per se, pero necesita incluirlo para evitar datos dependientes. Por ejemplo, si los niños están anidados en clases, por lo general, solo querrá niños como efecto aleatorio.

Peter Flom - Restablece a Monica
fuente

Tal vez te estoy malentendiendo, pero habría pensado que tener efectos fijos y aleatorios para la misma variable era más común que una variable que solo tiene un efecto aleatorio. Tener efectos fijos y aleatorios para la misma variable no es raro en el libro Pinheiro y Bates.

mark999

@MichaelChernick, según tengo entendido, si tiene un efecto fijo y un efecto aleatorio para la misma variable, entonces el efecto fijo es el efecto general en la población, mientras que el efecto aleatorio permite un efecto diferente de la variable para cada sujeto. Hay varios ejemplos en Pinheiro & Bates.

mark999

@PeterFlom, re: "si los niños están anidados en clases, por lo general, solo quieres niños como efecto aleatorio". Creo que te refieres a que la clase es el efecto aleatorio. A menos que haya más anidamiento en los datos (por ejemplo, mediciones repetidas en niños), no se identifican los efectos aleatorios a nivel infantil.

Macro

@macro Sí, a eso me refería, lo siento. ¡La terminología se vuelve muy confusa! Esa puede ser la razón por la cual Gelman evita los términos 'fijo' y 'aleatorio'

Peter Flom - Restablece a Monica

@Michael, estoy de acuerdo contigo. En este tipo de modelos jerárquicos, los efectos aleatorios se definen mediante una variable de agrupación (a diferencia de otros modelos multivariados, como los conjuntos de datos indexados espacialmente, donde la variable de 'agrupación' varía continuamente). En la pregunta del OP, Sitese conoce como el efecto aleatorio, no To Ao cualquier otra cosa. Pensando en ello de esa manera, Siteel efecto claramente no podría ser tanto fijo como aleatorio, ya que los dos no se identificarían entre sí. Puede tener coeficientes fijos y aleatorios para una variable, pero esa es una pregunta diferente.

Macro