Elección de ponderaciones de ruta en modelos conceptuales SEM para gemelos idénticos y fraternos utilizando openMx

10

Estoy revisando el paquete R OpenMx para un análisis de epidemiología genética con el fin de aprender a especificar y ajustar modelos SEM. Soy nuevo en esto, así que tengan paciencia conmigo. Estoy siguiendo el ejemplo en la página 59 de la Guía del usuario de OpenMx . Aquí dibujan el siguiente modelo conceptual:

Modelos SEM para gemelos idénticos y fraternos.

Y al especificar las rutas, establecen el peso del nodo "uno" latente en los nodos bmi manifestados "T1" y "T2" en 0.6 porque:

Las principales rutas de interés son las de cada una de las variables latentes a la respectiva variable observada. Estos también se estiman (por lo tanto, todos se liberan), obtienen un valor inicial de 0.6 y las etiquetas apropiadas.

# path coefficients for twin 1
mxPath(
  from=c("A1","C1","E1"),
  to="bmi1",
  arrows=1,
  free=TRUE,
  values=0.6,
  label=c("a","c","e")
),

# path coefficients for twin 2
mxPath(
  from=c("A2","C2","E2"),
  to="bmi2",
  arrows=1,
  free=TRUE,
  values=0.6,
  label=c("a","c","e")
),

El valor de 0.6 proviene de la covarianza estimada de bmi1y bmi2(de pares gemelos estrictamente mono zigóticos). Tengo dos preguntas:

  1. Cuando dicen que a la ruta se le da un valor "inicial" de 0.6, ¿es esto como establecer una rutina de integración numérica con valores iniciales, como en la estimación de GLM?

  2. ¿Por qué este valor se estima estrictamente a partir de los gemelos monocigóticos?

AdamO
fuente

Respuestas:

4

Para responder a tus 2 puntos:

1) Sí, exactamente: el valor inicial es simplemente dictar dónde comenzará el algoritmo el proceso de optimización. La mayoría de los paquetes de software en realidad determinan su propio valor inicial de manera predeterminada, y el usuario debe intentar ingresar valores diferentes solo cuando surgen problemas durante la estimación. Según mi experiencia, los valores iniciales más plausibles funcionarán y no cambiarán el modelo final en el que converge el algoritmo.

2) El valor 0.6 es el valor inicial no para la intersección de T1 y T2 (ruta entre "uno" y T1 y T2), sino que es el valor inicial para las cargas de factores que vinculan cada variable latente (A, C, E ) a su indicador T1 o T2. Esto se indica por el hecho de que la ruta va from=c("A1","C1","E1"), to="bmi1"en el primer caso y from=c("A2","C2","E2"), to="bmi2"en el segundo caso.

En cuanto al valor específico "0.6": no pude encontrar en la documentación donde mencionan tomar este valor basado en el subgrupo de gemelos monocigóticos; y, en realidad, estas estimaciones de parámetros (cargas de factores para las 3 variables latentes) no pueden calcularse directamente a partir de la muestra, ya que, por definición, estas variables latentes no son observadas (son latentes). Como mencioné en el punto 1, rara vez la elección entre dos valores plausibles afectará las estimaciones de los parámetros del modelo convergente, por lo que supongo que simplemente eligieron uno de los muchos valores plausibles para estas cargas de factores como valores iniciales. Si este valor proviene de la covarianza estimada entre bmi1 y bmi2 en el subgrupo de gemelos monocigóticos solo debería ser irrelevante, ya que cualquier valor inicial plausible debería llevar al algoritmo a converger en los mismos valores finales, quizás con algunas diferencias en el tiempo de cálculo. (Y mi consejo para convencerse es: ¡pruébelo! Pruebe varios valores iniciales y compare las estimaciones de los parámetros de los modelos convergentes).

Como nota general, señalaré que la elección de valores iniciales para cualquier estimación de parámetros se vuelve MUY importante si el argumento freese establece en FALSE, porque el valor inicial se convertirá efectivamente en el valor de la estimación de parámetros en el modelo final (no ser estimado; se fija antes de la estimación).

Patrick Coulombe
fuente