Modelado lineal de efectos mixtos con datos de estudios gemelos

Supongamos que tengo alguna variable de respuesta $y_{ij}$ que se midió a partir del hermano $j$ en la familia $i$ . Además, se recopilaron algunos datos de comportamiento $x_{ij}$ al mismo tiempo de cada sujeto. Estoy tratando de analizar la situación con el siguiente modelo lineal de efectos mixtos:

y_{i j} = α_{0} + α_{1} x_{i j} + δ_{1 i} x_{i j} + ε_{i j}

$y_{ij} = \alpha_0 + \alpha_1 x_{ij} + \delta_{1i} x_{ij} + \varepsilon_{ij}$

donde y son la intersección fija y la pendiente respectivamente, es la pendiente aleatoria y es el residual. $\alpha_0$ $\alpha_1$ $\delta_{1i}$ $\varepsilon_{ij}$

Los supuestos para los efectos aleatorios y residual son (suponiendo que solo haya dos hermanos dentro de cada familia) $\delta_{1i}$ $\varepsilon_{ij}$

\begin{aligned} δ_{1 i} & \overset{d}{\sim} N (0, τ^{2}) \\ (ε_{i 1}, ε_{i 2})^{T} & \overset{d}{\sim} N ((0, 0)^{T}, R) \end{aligned}

$\begin{align} \delta_{1i} &\stackrel{d}{\sim} N(0, \tau^2) \\[5pt] (\varepsilon_{i1}, \varepsilon_{i2})^T &\stackrel{d}{\sim} N((0, 0)^T, R) \end{align}$

donde es un parámetro de varianza desconocido y la estructura de varianza-covarianza es una matriz simétrica de forma 2 x 2 $\tau^2$ $R$

(\begin{matrix} r_{1}^{2} & r_{12}^{2} \\ r_{12}^{2} & r_{2}^{2} \end{matrix})

$\begin{pmatrix} r_1^2&r_{12}^2\\ r_{12}^2&r_2^2 \end{pmatrix}$

eso modela la correlación entre los dos hermanos.

¿Es este un modelo apropiado para tal estudio de hermanos?
Los datos son un poco complicados. Entre las 50 familias, cerca del 90% de ellas son gemelas dicigóticas (DZ). Para el resto de familias,
1. dos tienen un solo hermano;
2. dos tienen un par DZ más un hermano; y
3. dos tienen un par DZ más dos hermanos adicionales.
Creo que lmeel paquete R nlmepuede manejar fácilmente (1) con situaciones faltantes o desequilibradas. Mi problema es, ¿cómo lidiar con (2) y (3)? Una posibilidad que se me ocurre es dividir cada una de esas cuatro familias en (2) y (3) en dos para que cada subfamilia tenga uno o dos hermanos para que el modelo anterior pueda aplicarse. Esta bien? Otra opción sería simplemente tirar los datos de uno o dos hermanos adicionales en (2) y (3), lo que parece ser un desperdicio. ¿Algún mejor enfoque?
Parece que lmepermite fijar los valores de en la matriz de varianza-covarianza residual , por ejemplo, = 0.5. ¿Tiene sentido imponer la estructura de correlación, o debería simplemente estimarla con base en los datos? $r$ $R$ $r_{12}^2$

mixed-model lme4-nlme covariance-matrix non-independent Bluepole
fuente

¿Qué denota

x_{j}

$x_j$

Macro

@Macro: Gracias por ver eso. Acabo de modificar el OP para indicar que

es una variable explicativa, una medida de comportamiento de cada hermano.

x_{i j}

$x_{ij}$

bluepole

Pregunta y aplicación muy interesantes. Me podría faltar algo, pero me parece que este modelo está sobre-parametrizado. Los errores correlacionados

pueden factorizarse efectivamente en un componente "no compartido" y un componente "compartido", el último de los cuales tiene la misma función que

. Tendrá que eliminar

, cometer los errores de iid de

o imponer restricciones como

ϵ_{i 1}, ϵ_{i 2}

$ϵ_{i1},ϵ_{i2}$

δ_{0 i}

$δ_{0i}$

δ_{0 i}

$\delta_{0i}$

ϵ

$\epsilon$

r_{12}^{2} = .5

$r^2_{12} = .5$ para la identificabilidad: ¿lo hace a propósito para desacoplar los componentes ambientales / genéticos para la correlación entre hermanos?

Macro

@Macro: Tienes razón:

no es necesario en el modelo. ¡Gracias por señalar esto! Extrañamente no se queja de tal redundancia.

δ_{0 i}

$δ_{0i}$ lme

bluepole

¿Sigue trabajando con este modelo sobreparamizado (esa parte de su pregunta no ha sido editada)?

Macro

Respuestas:

Puede incluir gemelos y no gemelos en un modelo unificado utilizando una variable ficticia e incluyendo pendientes aleatorias en esa variable ficticia. Como todas las familias tienen como máximo un par de gemelos, esto será relativamente simple:

Let $A_{ij} = 1$ $j$ $i$ $\eta_{i3}$

Luego ajuste el modelo:

y_{i j} = α_{0} + α_{1} x_{i j} + η_{i 0} + η_{i 1} A_{i j} + η_{i 2} x_{i j} + η_{i 3} x_{i j} A_{i j} + ε_{i j}

$y_{ij} = \alpha_{0} + \alpha_{1} x_{ij} + \eta_{i0} + \eta_{i1} A_{ij} + \eta_{i2} x_{ij} + \eta_{i3} x_{ij} A_{ij} + \varepsilon_{ij}$

$\alpha_{0}, \alpha_{1}$
$\eta_{i0}$ $\eta_{i1}$ $A_{ij}=1$
$\eta_{i2}$ $\eta_{i3}$ $x_{ij}$
$\varepsilon_{ij}$

Puede ajustar el modelo usando el Rpaquete lme4. En el siguiente código, la variable dependiente es y, la variable ficticia es A, el predictor es x, el producto de la variable ficticia y el predictor es Axy famIDes el número identificador de la familia. Se supone que sus datos se almacenan en un marco de datos D, con estas variables como columnas.

library(lme4) 
g <- lmer(y ~ x + (1+A+x+Ax|famID), data=D)

Las variables de efectos aleatorios y las estimaciones de efectos fijos se pueden ver escribiendo summary(g). Tenga en cuenta que este modelo permite que los efectos aleatorios se correlacionen libremente entre sí.

En muchos casos, puede tener más sentido (o ser más fácil de interpretar) asumir la independencia entre los efectos aleatorios (por ejemplo, esta suposición a menudo se hace para descomponer la correlación familiar genética frente a la ambiental), en cuyo caso, en su lugar, escribiría

g <- lmer(y ~ x + (1|famID) + (A-1|famID) + (x-1|famID) +(Ax-1|famID), data=D)

Macro
fuente

Esta es realmente una buena solución, ¡y me gusta! Lo probaré pronto y veré que se va ... ¡Muchas gracias!

bluepole

De nada. Si esta solución le ha resultado útil, considere aceptar la respuesta :)

Macro

Dos cuestiones: 1) Dado que la mayoría de los sujetos son gemelos dicigóticos, su enfoque parece no modelar la correlación entre un par de gemelos DZ. 2) Solo 4 familias tienen hermanos adicionales. Me preocupa que sea difícil estimar los efectos aleatorios para los hermanos basándose solo en esas 4 familias. Debido a que la diferencia entre un par de gemelos DZ y otro hermano es relativamente pequeña (principalmente ambiental, no genética), tal vez pueda simplemente ignorar la sutil diferencia de gemelo contra hermano y tratar a esos pocos hermanos como gemelos con efectos aleatorios como en su modelo o con residuos correlacionados como en mi OP.

bluepole

Este enfoque modela la correlación entre gemelos. Por ejemplo, si sus valores predictores son 0, entonces la correlación entre gemelos es

\frac{σ_{0 0}^{2} + σ_{1}^{2}}{σ_{0 0}^{2} + σ_{1}^{2} + σ_{ε}^{2}}

$\frac{ \sigma_{0}^{2} + \sigma_{1}^{2} }{ \sigma_{0}^{2} + \sigma_{1}^{2} + \sigma^{2}_{\varepsilon}}$ dónde

σ_{0}^{2}, σ_{1}^{2}

$\sigma_{0}^{2}, \sigma_{1}^{2}$ son las variaciones de

η_{i 0}, η_{i 1}

$\eta_{i0}, \eta_{i1}$ , respectivamente y

σ_{ε}^{2}

$\sigma^{2}_{\varepsilon}$ es la varianza del término de error. Cuando los valores predictores no son 0, esta expresión también involucrará las variaciones de los otros dos efectos aleatorios.

Macro

Tienes razón en que, dado que hay pocos no gemelos, las variaciones de

η_{i 0}

$\eta_{i0}$ y

η_{i 2}

$\eta_{i2}$ are going to be difficult to estimate. You can leave them out, but you don't lose anything by using the model I've suggested but possibly computational brevity. If you do, you're effectively assuming that non-twin siblings are independent. But you can still be using those observations to estimate the mean parameters (i.e. don't leave them out of the model fitting). Or, as you said, you can just act as though regular siblings are the same as twins, and you wouldn't need to dummy coding at all.

Macro