Preguntas sobre la especificación de modelos lineales mixtos en R para datos de medidas repetidas con estructura de anidamiento adicional

Estructura de datos

> str(data)
 'data.frame':   6138 obs. of  10 variables:
 $ RT     : int  484 391 422 516 563 531 406 500 516 578 ...
 $ ASCORE : num  5.1 4 3.8 2.6 2.7 6.5 4.9 2.9 2.6 7.2 ...
 $ HSCORE : num  6 2.1 7.9 1 6.9 8.9 8.2 3.6 1.7 8.6 ...
 $ MVMNT  : Factor w/ 2 levels "_Withd","Appr": 2 2 1 1 2 1 2 1 1 2 ...
 $ STIM   : Factor w/ 123 levels " arti"," cele",..: 16 23 82 42 105 4 93 9 34 25 ...
 $ DRUG   : Factor w/ 2 levels "Inactive","Pharm": 1 1 1 1 1 1 1 1 1 1 ...
 $ FULLNSS: Factor w/ 2 levels "Fasted","Fed": 2 2 2 2 2 2 2 2 2 2 ...
 $ PATIENT: Factor w/ 25 levels "Subj01","Subj02",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ SESSION: Factor w/ 4 levels "Sess1","Sess2",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ TRIAL  : Factor w/ 6138 levels "T0001","T0002",..: 1 2 3 4 5 6 7 8 9 10 ...

Candidato modelo completo

model.loaded.fit <- lmer(RT ~ ASCORE*HSCORE*MVMNT*DRUG*FULLNSS
                              + (1|PATIENT) + (1|SESSION), data, REML = TRUE)

Los tiempos de reacción de los ensayos se agrupan dentro de las sesiones, que a su vez se agrupan dentro de los pacientes.
Cada ensayo se puede caracterizar por dos covariables continuas de ASCORE y HSCORE (que varían entre 1-9) y por una respuesta de movimiento (retirada o aproximación)
Las sesiones se caracterizan por la ingesta de drogas (placebo o farmacon activa) y por la plenitud (en ayunas o prealimentadas)

Modelado y sintaxis R?

Estoy tratando de especificar un modelo completo apropiado con una estructura media cargada que pueda usarse como punto de partida en una estrategia de selección de modelo de arriba hacia abajo.

Problemas específicos:

¿La sintaxis especifica correctamente la agrupación y los efectos aleatorios?
Más allá de la sintaxis, ¿es este modelo apropiado para el diseño dentro de la asignatura anterior?
¿Debería el modelo completo especificar todas las interacciones de efectos fijos, o solo aquellas en las que estoy realmente interesado?
No he incluido el factor STIM en el modelo, que caracteriza el tipo de estímulo específico utilizado en un ensayo, pero que no me interesa estimar de ninguna manera. ¿Debo especificar que como factor aleatorio dado que tiene 123 niveles y muy pocos puntos de datos por tipo de estímulo?

r mixed-model repeated-measures model-selection lme4-nlme Cel
fuente

si no puedo encontrar consejos aquí, ¿realmente no sé a quién podría preguntar? ¿quizás conoces algún foro dedicado de modelos mixtos o incluso un experto dispuesto a consultar por un poco de dinero?

Cel

Hola @Cel, parece que tienes TODAS las interacciones en el modelo, incluidas las interacciones de 5, 4 y 3 vías. No estoy seguro sobre este caso, pero eso generalmente sobreajustará los datos, lo que hará que sus resultados sean menos generalizables. La selección hacia atrás (si debe usarla) no necesita comenzar con un modelo completamente saturado; debe comenzar con el modelo más grande que encuentre plausible. ¿Puedes reducir eso?

Macro

@Macro es bueno saberlo, incluiré solo las interacciones que parecen plausibles entonces. ¿Tiene sugerencias con respecto a los otros temas? si lo hace, tal vez lo ponga como respuesta para que pueda aceptarlo.

Cel

Contestaré cada una de sus consultas por turno.

¿La sintaxis especifica correctamente la agrupación y los efectos aleatorios?

El modelo que has ajustado aquí es, en términos matemáticos, el modelo

Y_{i j k} = X_{i j k} β + η_{i} + θ_{i j} + ε_{i j k}

$Y_{ijk} = {\bf X}_{ijk} {\boldsymbol \beta} + \eta_{i} + \theta_{ij} + \varepsilon_{ijk}$

dónde

$Y_{ijk}$ es el tiempo de reacción para la observación durante la sesión en el individuo . $k$ $j$ $i$
${\bf X}_{ijk}$ es el vector predictor para la observación durante la sesión en el individuo (en el modelo que ha escrito, se compone de todos los efectos principales y todas las interacciones). $k$ $j$ $i$
$\eta_i$ es la persona efecto aleatorio que induce la correlación entre las observaciones realizadas en la misma persona. es el efecto aleatorio para la sesión individual de y es el término de error sobrante. $i$ $\theta_{ij}$ $i$ $j$ $\varepsilon_{ijk}$
${\boldsymbol \beta}$ es el vector de coeficiente de regresión.

Como se señaló en la página 14-15 aquí, este modelo es correcto para especificar que las sesiones están anidadas dentro de individuos, que es el caso de su descripción.

Más allá de la sintaxis, ¿es este modelo apropiado para el diseño dentro de la asignatura anterior?

Creo que este modelo es razonable, ya que respeta la estructura de anidación en los datos y creo que el individuo y la sesión se consideran razonablemente como efectos aleatorios, como afirma este modelo. Debe observar las relaciones entre los predictores y la respuesta con diagramas de dispersión, etc. para asegurarse de que el predictor lineal ( ) esté correctamente especificado. Los otros diagnósticos de regresión estándar posiblemente también deberían examinarse. ${\bf X}_{ijk} {\boldsymbol \beta}$

¿Debería el modelo completo especificar todas las interacciones de efectos fijos, o solo aquellas en las que estoy realmente interesado?

Creo que comenzar con un modelo tan saturado puede no ser una gran idea, a menos que tenga mucho sentido. Como dije en un comentario, esto tenderá a sobreajustar su conjunto de datos en particular y puede hacer que sus resultados sean menos generalizables. Con respecto a la selección del modelo, si comienza con el modelo completamente saturado y hace una selección hacia atrás ( que algunas personas en este sitio, con buena razón, objetan ), entonces debe asegurarse de respetar la jerarquía en el modelo. Es decir, si elimina una interacción de nivel inferior del modelo, también debe eliminar todas las interacciones de nivel superior que involucren esa variable. Para más discusión sobre eso, vea el hilo vinculado.

No he incluido el factor STIM en el modelo, que caracteriza el tipo de estímulo específico utilizado en un ensayo, pero que no me interesa estimar de ninguna manera. ¿Debo especificar que como factor aleatorio dado que tiene 123 niveles y muy pocos puntos de datos por tipo de estímulo?

Es cierto que no sé nada sobre la aplicación (así que tómalo con un grano de sal), eso suena como un efecto fijo, no un efecto aleatorio. Es decir, el tipo de tratamiento suena como una variable que correspondería a un cambio fijo en la respuesta media, no algo que induciría la correlación entre sujetos que tenían el mismo tipo de estímulo. Pero, el hecho de que sea un factor de nivel 123 hace que sea engorroso entrar en el modelo. Supongo que me gustaría saber qué efecto tan grande esperarías que tenga. Independientemente del tamaño del efecto, no inducirá sesgo en sus estimaciones de pendiente, ya que este es un modelo lineal, pero dejarlo afuera puede hacer que sus errores estándar sean más grandes de lo que serían de otra manera.

Macro
fuente

Guau. gracias Macro, desearía poder dar más puntos.

Cel

Dado que los efectos aleatorios se cruzan en lugar de al azar, ¿la notación debe ser y (en lugar de ), ya que desde que se cruza (y no se anida) con el paciente?

η_{i}

$\eta_{i}$

θ_{j}

$\theta_{j}$

θ_{j}

$\theta_{j}$

Joshua Rosenberg

Preguntas sobre la especificación de modelos lineales mixtos en R para datos de medidas repetidas con estructura de anidamiento adicional

Estructura de datos

Candidato modelo completo

Modelado y sintaxis R?

Respuestas: