Modelado lineal de efectos mixtos con datos de estudios gemelos

14

Supongamos que tengo alguna variable de respuesta yij que se midió a partir del hermano j en la familia i . Además, se recopilaron algunos datos de comportamiento xij al mismo tiempo de cada sujeto. Estoy tratando de analizar la situación con el siguiente modelo lineal de efectos mixtos:

yij=α0+α1xij+δ1ixij+εij

donde y α 1 son la intersección fija y la pendiente respectivamente, δ 1 i es la pendiente aleatoria y ε i j es el residual.α0α1δ1iεij

Los supuestos para los efectos aleatorios y residual ε i j son (suponiendo que solo haya dos hermanos dentro de cada familia)δ1iεij

δ1idN(0,τ2)(εi1,εi2)TdN((0,0)T,R)

donde es un parámetro de varianza desconocido y la estructura de varianza-covarianza R es una matriz simétrica de forma 2 x 2τ2R

(r12r122r122r22)

eso modela la correlación entre los dos hermanos.

  1. ¿Es este un modelo apropiado para tal estudio de hermanos?

  2. Los datos son un poco complicados. Entre las 50 familias, cerca del 90% de ellas son gemelas dicigóticas (DZ). Para el resto de familias,

    1. dos tienen un solo hermano;
    2. dos tienen un par DZ más un hermano; y
    3. dos tienen un par DZ más dos hermanos adicionales.


    Creo que lmeel paquete R nlmepuede manejar fácilmente (1) con situaciones faltantes o desequilibradas. Mi problema es, ¿cómo lidiar con (2) y (3)? Una posibilidad que se me ocurre es dividir cada una de esas cuatro familias en (2) y (3) en dos para que cada subfamilia tenga uno o dos hermanos para que el modelo anterior pueda aplicarse. Esta bien? Otra opción sería simplemente tirar los datos de uno o dos hermanos adicionales en (2) y (3), lo que parece ser un desperdicio. ¿Algún mejor enfoque?

  3. Parece que lmepermite fijar los valores de en la matriz de varianza-covarianza residual R , por ejemplo, r 2 12 = 0.5. ¿Tiene sentido imponer la estructura de correlación, o debería simplemente estimarla con base en los datos?rRr122

Bluepole
fuente
1
¿Qué denota ? xj
Macro
@Macro: Gracias por ver eso. Acabo de modificar el OP para indicar que es una variable explicativa, una medida de comportamiento de cada hermano. xij
bluepole
1
Pregunta y aplicación muy interesantes. Me podría faltar algo, pero me parece que este modelo está sobre-parametrizado. Los errores correlacionados pueden factorizarse efectivamente en un componente "no compartido" y un componente "compartido", el último de los cuales tiene la misma función que δ 0 i . Tendrá que eliminar δ 0 i , cometer los errores de iid de ϵ o imponer restricciones como r 2 12ϵi1,ϵi2δ0iδ0iϵr122=.5 para la identificabilidad: ¿lo hace a propósito para desacoplar los componentes ambientales / genéticos para la correlación entre hermanos?
Macro
@Macro: Tienes razón: no es necesario en el modelo. ¡Gracias por señalar esto! Extrañamente no se queja de tal redundancia. δ0ilme
bluepole
¿Sigue trabajando con este modelo sobreparamizado (esa parte de su pregunta no ha sido editada)?
Macro

Respuestas:

10

Puede incluir gemelos y no gemelos en un modelo unificado utilizando una variable ficticia e incluyendo pendientes aleatorias en esa variable ficticia. Como todas las familias tienen como máximo un par de gemelos, esto será relativamente simple:

Let Aij=1jiηi3

Luego ajuste el modelo:

yij=α0+α1xij+ηi0+ηi1Aij+ηi2xij+ηi3xijAij+εij
  • α0,α1

  • ηi0ηi1Aij=1

  • ηi2ηi3xij

  • εyoj

Puede ajustar el modelo usando el Rpaquete lme4. En el siguiente código, la variable dependiente es y, la variable ficticia es A, el predictor es x, el producto de la variable ficticia y el predictor es Axy famIDes el número identificador de la familia. Se supone que sus datos se almacenan en un marco de datos D, con estas variables como columnas.

library(lme4) 
g <- lmer(y ~ x + (1+A+x+Ax|famID), data=D) 

Las variables de efectos aleatorios y las estimaciones de efectos fijos se pueden ver escribiendo summary(g). Tenga en cuenta que este modelo permite que los efectos aleatorios se correlacionen libremente entre sí.

En muchos casos, puede tener más sentido (o ser más fácil de interpretar) asumir la independencia entre los efectos aleatorios (por ejemplo, esta suposición a menudo se hace para descomponer la correlación familiar genética frente a la ambiental), en cuyo caso, en su lugar, escribiría

g <- lmer(y ~ x + (1|famID) + (A-1|famID) + (x-1|famID) +(Ax-1|famID), data=D) 
Macro
fuente
Esta es realmente una buena solución, ¡y me gusta! Lo probaré pronto y veré que se va ... ¡Muchas gracias!
bluepole
De nada. Si esta solución le ha resultado útil, considere aceptar la respuesta :)
Macro
Dos cuestiones: 1) Dado que la mayoría de los sujetos son gemelos dicigóticos, su enfoque parece no modelar la correlación entre un par de gemelos DZ. 2) Solo 4 familias tienen hermanos adicionales. Me preocupa que sea difícil estimar los efectos aleatorios para los hermanos basándose solo en esas 4 familias. Debido a que la diferencia entre un par de gemelos DZ y otro hermano es relativamente pequeña (principalmente ambiental, no genética), tal vez pueda simplemente ignorar la sutil diferencia de gemelo contra hermano y tratar a esos pocos hermanos como gemelos con efectos aleatorios como en su modelo o con residuos correlacionados como en mi OP.
bluepole
Este enfoque modela la correlación entre gemelos. Por ejemplo, si sus valores predictores son 0, entonces la correlación entre gemelos es
σ0 02+σ12σ0 02+σ12+σε2
dónde σ0 02,σ12 son las variaciones de ηyo0 0,ηyo1, respectivamente y σε2es la varianza del término de error. Cuando los valores predictores no son 0, esta expresión también involucrará las variaciones de los otros dos efectos aleatorios.
Macro
Tienes razón en que, dado que hay pocos no gemelos, las variaciones de ηyo0 0 y ηyo2 are going to be difficult to estimate. You can leave them out, but you don't lose anything by using the model I've suggested but possibly computational brevity. If you do, you're effectively assuming that non-twin siblings are independent. But you can still be using those observations to estimate the mean parameters (i.e. don't leave them out of the model fitting). Or, as you said, you can just act as though regular siblings are the same as twins, and you wouldn't need to dummy coding at all.
Macro