Estructura de datos
> str(data)
'data.frame': 6138 obs. of 10 variables:
$ RT : int 484 391 422 516 563 531 406 500 516 578 ...
$ ASCORE : num 5.1 4 3.8 2.6 2.7 6.5 4.9 2.9 2.6 7.2 ...
$ HSCORE : num 6 2.1 7.9 1 6.9 8.9 8.2 3.6 1.7 8.6 ...
$ MVMNT : Factor w/ 2 levels "_Withd","Appr": 2 2 1 1 2 1 2 1 1 2 ...
$ STIM : Factor w/ 123 levels " arti"," cele",..: 16 23 82 42 105 4 93 9 34 25 ...
$ DRUG : Factor w/ 2 levels "Inactive","Pharm": 1 1 1 1 1 1 1 1 1 1 ...
$ FULLNSS: Factor w/ 2 levels "Fasted","Fed": 2 2 2 2 2 2 2 2 2 2 ...
$ PATIENT: Factor w/ 25 levels "Subj01","Subj02",..: 1 1 1 1 1 1 1 1 1 1 ...
$ SESSION: Factor w/ 4 levels "Sess1","Sess2",..: 1 1 1 1 1 1 1 1 1 1 ...
$ TRIAL : Factor w/ 6138 levels "T0001","T0002",..: 1 2 3 4 5 6 7 8 9 10 ...
Candidato modelo completo
model.loaded.fit <- lmer(RT ~ ASCORE*HSCORE*MVMNT*DRUG*FULLNSS
+ (1|PATIENT) + (1|SESSION), data, REML = TRUE)
- Los tiempos de reacción de los ensayos se agrupan dentro de las sesiones, que a su vez se agrupan dentro de los pacientes.
- Cada ensayo se puede caracterizar por dos covariables continuas de ASCORE y HSCORE (que varían entre 1-9) y por una respuesta de movimiento (retirada o aproximación)
- Las sesiones se caracterizan por la ingesta de drogas (placebo o farmacon activa) y por la plenitud (en ayunas o prealimentadas)
Modelado y sintaxis R?
Estoy tratando de especificar un modelo completo apropiado con una estructura media cargada que pueda usarse como punto de partida en una estrategia de selección de modelo de arriba hacia abajo.
Problemas específicos:
- ¿La sintaxis especifica correctamente la agrupación y los efectos aleatorios?
- Más allá de la sintaxis, ¿es este modelo apropiado para el diseño dentro de la asignatura anterior?
- ¿Debería el modelo completo especificar todas las interacciones de efectos fijos, o solo aquellas en las que estoy realmente interesado?
- No he incluido el factor STIM en el modelo, que caracteriza el tipo de estímulo específico utilizado en un ensayo, pero que no me interesa estimar de ninguna manera. ¿Debo especificar que como factor aleatorio dado que tiene 123 niveles y muy pocos puntos de datos por tipo de estímulo?
Respuestas:
Contestaré cada una de sus consultas por turno.
¿La sintaxis especifica correctamente la agrupación y los efectos aleatorios?
El modelo que has ajustado aquí es, en términos matemáticos, el modelo
dónde
Como se señaló en la página 14-15 aquí, este modelo es correcto para especificar que las sesiones están anidadas dentro de individuos, que es el caso de su descripción.
Más allá de la sintaxis, ¿es este modelo apropiado para el diseño dentro de la asignatura anterior?
Creo que este modelo es razonable, ya que respeta la estructura de anidación en los datos y creo que el individuo y la sesión se consideran razonablemente como efectos aleatorios, como afirma este modelo. Debe observar las relaciones entre los predictores y la respuesta con diagramas de dispersión, etc. para asegurarse de que el predictor lineal ( ) esté correctamente especificado. Los otros diagnósticos de regresión estándar posiblemente también deberían examinarse.Xijkβ
¿Debería el modelo completo especificar todas las interacciones de efectos fijos, o solo aquellas en las que estoy realmente interesado?
Creo que comenzar con un modelo tan saturado puede no ser una gran idea, a menos que tenga mucho sentido. Como dije en un comentario, esto tenderá a sobreajustar su conjunto de datos en particular y puede hacer que sus resultados sean menos generalizables. Con respecto a la selección del modelo, si comienza con el modelo completamente saturado y hace una selección hacia atrás ( que algunas personas en este sitio, con buena razón, objetan ), entonces debe asegurarse de respetar la jerarquía en el modelo. Es decir, si elimina una interacción de nivel inferior del modelo, también debe eliminar todas las interacciones de nivel superior que involucren esa variable. Para más discusión sobre eso, vea el hilo vinculado.
No he incluido el factor STIM en el modelo, que caracteriza el tipo de estímulo específico utilizado en un ensayo, pero que no me interesa estimar de ninguna manera. ¿Debo especificar que como factor aleatorio dado que tiene 123 niveles y muy pocos puntos de datos por tipo de estímulo?
Es cierto que no sé nada sobre la aplicación (así que tómalo con un grano de sal), eso suena como un efecto fijo, no un efecto aleatorio. Es decir, el tipo de tratamiento suena como una variable que correspondería a un cambio fijo en la respuesta media, no algo que induciría la correlación entre sujetos que tenían el mismo tipo de estímulo. Pero, el hecho de que sea un factor de nivel 123 hace que sea engorroso entrar en el modelo. Supongo que me gustaría saber qué efecto tan grande esperarías que tenga. Independientemente del tamaño del efecto, no inducirá sesgo en sus estimaciones de pendiente, ya que este es un modelo lineal, pero dejarlo afuera puede hacer que sus errores estándar sean más grandes de lo que serían de otra manera.
fuente