Supongamos que tengo alguna variable de respuesta que se midió a partir del hermano en la familia . Además, se recopilaron algunos datos de comportamiento al mismo tiempo de cada sujeto. Estoy tratando de analizar la situación con el siguiente modelo lineal de efectos mixtos:
donde y α 1 son la intersección fija y la pendiente respectivamente, δ 1 i es la pendiente aleatoria y ε i j es el residual.
Los supuestos para los efectos aleatorios y residual ε i j son (suponiendo que solo haya dos hermanos dentro de cada familia)
donde es un parámetro de varianza desconocido y la estructura de varianza-covarianza R es una matriz simétrica de forma 2 x 2
eso modela la correlación entre los dos hermanos.
¿Es este un modelo apropiado para tal estudio de hermanos?
Los datos son un poco complicados. Entre las 50 familias, cerca del 90% de ellas son gemelas dicigóticas (DZ). Para el resto de familias,
- dos tienen un solo hermano;
- dos tienen un par DZ más un hermano; y
- dos tienen un par DZ más dos hermanos adicionales.
Creo que
lme
el paquete Rnlme
puede manejar fácilmente (1) con situaciones faltantes o desequilibradas. Mi problema es, ¿cómo lidiar con (2) y (3)? Una posibilidad que se me ocurre es dividir cada una de esas cuatro familias en (2) y (3) en dos para que cada subfamilia tenga uno o dos hermanos para que el modelo anterior pueda aplicarse. Esta bien? Otra opción sería simplemente tirar los datos de uno o dos hermanos adicionales en (2) y (3), lo que parece ser un desperdicio. ¿Algún mejor enfoque?Parece que
lme
permite fijar los valores de en la matriz de varianza-covarianza residual R , por ejemplo, r 2 12 = 0.5. ¿Tiene sentido imponer la estructura de correlación, o debería simplemente estimarla con base en los datos?
lme
Respuestas:
Puede incluir gemelos y no gemelos en un modelo unificado utilizando una variable ficticia e incluyendo pendientes aleatorias en esa variable ficticia. Como todas las familias tienen como máximo un par de gemelos, esto será relativamente simple:
LetAij=1 j i ηi3
Luego ajuste el modelo:
Puede ajustar el modelo usando el
R
paquetelme4
. En el siguiente código, la variable dependiente esy
, la variable ficticia esA
, el predictor esx
, el producto de la variable ficticia y el predictor esAx
yfamID
es el número identificador de la familia. Se supone que sus datos se almacenan en un marco de datosD
, con estas variables como columnas.Las variables de efectos aleatorios y las estimaciones de efectos fijos se pueden ver escribiendo
summary(g)
. Tenga en cuenta que este modelo permite que los efectos aleatorios se correlacionen libremente entre sí.En muchos casos, puede tener más sentido (o ser más fácil de interpretar) asumir la independencia entre los efectos aleatorios (por ejemplo, esta suposición a menudo se hace para descomponer la correlación familiar genética frente a la ambiental), en cuyo caso, en su lugar, escribiría
fuente