Modelado de datos longitudinales donde el efecto del tiempo varía en forma funcional entre individuos

32

Contexto :

Imagine que tiene un estudio longitudinal que mide una variable dependiente (DV) una vez por semana durante 20 semanas en 200 participantes. Aunque estoy interesado en general, los DV típicos en los que estoy pensando incluyen el desempeño laboral después de la contratación o varias medidas de bienestar después de una intervención de psicología clínica.

Sé que el modelado multinivel se puede usar para modelar la relación entre el tiempo y el DV. También puede permitir que los coeficientes (por ejemplo, intersecciones, pendientes, etc.) varíen entre individuos y estimen los valores particulares para los participantes. Pero, ¿qué pasa si al inspeccionar visualmente los datos encuentra que la relación entre el tiempo y el DV es cualquiera de los siguientes:

  • diferente en forma funcional (quizás algunos son lineales y otros son exponenciales o algunos tienen una discontinuidad)
  • diferente en la varianza de error (algunas personas son más volátiles de un punto de tiempo al siguiente)

Preguntas :

  • ¿Cuál sería una buena manera de abordar datos de modelado como este?
  • Específicamente, ¿qué enfoques son buenos para identificar diferentes tipos de relaciones y clasificar a las personas con respecto a su tipo?
  • ¿Qué implementaciones existen en R para tales análisis?
  • ¿Hay alguna referencia sobre cómo hacer esto: libro de texto o aplicación real?
Jeromy Anglim
fuente

Respuestas:

20

Sugeriría mirar las siguientes tres direcciones:

  • agrupamiento longitudinal : esto no está supervisado, pero utiliza el enfoque k-means que se basa en el criterio de Calinsky para evaluar la calidad de la partición (paquete kml y referencias incluidas en la ayuda en línea); Básicamente, no ayudará a identificar la forma específica para el curso de tiempo individual, sino que separará el perfil de evolución homogéneo
  • algún tipo de curva de crecimiento latente que tenga en cuenta la heterocedasticidad: mi mejor conjetura sería mirar las amplias referencias sobre el software MPlus , especialmente las preguntas frecuentes y el envío de correos. También he oído hablar del modelo heterocedástico multiplicativo de efectos aleatorios (intente buscar en Google esas palabras clave). Encuentro estos documentos ( 1 , 2 ) interesantes, pero no los miré en detalle. Actualizaré con referencias sobre evaluación neuropsicológica una vez que regrese a mi oficina.
  • PCA funcional ( paquete fpca ) pero puede valer la pena mirar el análisis de datos funcionales

Otras referencias (solo navegadas sobre la marcha):

chl
fuente
1
Gracias. Se me ocurrió la idea de utilizar un procedimiento de agrupamiento. Me imagino que el desafío sería capturar y ponderar adecuadamente las posibles características de la curva de nivel individual de una manera teóricamente significativa. Echaré un vistazo para ver cómo funciona en kml.
Jeromy Anglim
1
Bueno, funciona bastante bien, aunque la interfaz es horrible (y conozco al tipo que la construyó :): la usé hace dos meses para separar grupos clínicos basados ​​en perfiles individuales en mediciones de desarrollo (Brunet-Lézine).
chl
1
Aquí hay otra referencia principal para la FDA: psych.mcgill.ca/misc/fda
Mike Lawrence
1
Encontré esta introducción al enlace de la FDA por Ramsay (2008), particularmente accesible gbi.agrsci.dk/~shd/public/FDA2008/FDA_Sage.pdf
Jeromy Anglim
6

Me parece que los Modelos de mezcla de crecimiento podrían tener el potencial de permitirle examinar su varianza de error. ( PDF aquí). (No estoy seguro de qué son los modelos heterocedásticos elásticos, pero definitivamente tendré que verificarlos).

Los modelos de trayectoria basados ​​en grupos latentes se han vuelto muy populares últimamente en criminología. Pero muchas personas simplemente dan por sentado que los grupos realmente existen, y algunas investigaciones astutas han señalado que encontrará grupos incluso en datos aleatorios. Además, tener en cuenta que el enfoque de modelado basado en grupos de Nagin no le permite evaluar su error (y, sinceramente, nunca he visto un modelo que se parezca a una discontinuidad).

Aunque sería difícil con 20 puntos de tiempo, para fines exploratorios, crear heurísticas simples para identificar patrones podría ser útil (por ejemplo, siempre bajo o siempre alto, coeficiente de variación). Estoy imaginando minigráficos en una hoja de cálculo o gráficas de coordenadas paralelas, pero dudo que sean útiles (sinceramente, nunca he visto una gráfica de coordenadas paralelas que sea muy esclarecedora).

Buena suerte

Andy W
fuente
@chl, no hay problema, gracias por todos los recursos que enumeró aquí.
Andy W
Buen punto sobre grupos latentes. He visto varias aplicaciones de análisis de clase latente y análisis de conglomerados en las que parece estar dividiendo una variable continua de categorías int bajas y altas ( jeromyanglim.blogspot.com/2009/09/… ). Sin embargo, tengo algunos datos longitudinales de nivel individual que visualmente parecen provenir de procesos de generación de datos categóricamente distintos (p. Ej., Siempre alto, siempre bajo, aumento gradual, aumento bajo y luego abrupto, etc.) y dentro de categorías Hay una variación más continua de los parámetros.
Jeromy Anglim
@ Jeromy, no creo que el trabajo que cité desanime a las personas a usar tales métodos para identificar grupos latentes. Yo diría que el objetivo del trabajo es que no se pueden utilizar dichos métodos para inferir únicamente la existencia de grupos, porque siempre encontrará grupos, incluso en datos aleatorios. Depende de una interpretación más subjetiva si esos grupos que encuentra son reales o simplemente artefactos del método. Puede identificar algunas teorías lógicas que generan dichos procesos y luego ver si los grupos identificados se ajustan a esas teorías.
Andy W
5

Cuatro años después de hacer esta pregunta, he aprendido algunas cosas, así que tal vez debería agregar algunas ideas.

Creo que el modelado jerárquico bayesiano proporciona un enfoque flexible para este problema.

Software : herramientas como jags, stan, WinBugs, etc., potencialmente combinadas con sus respectivos paquetes de interfaz R (por ejemplo, rjags, rstan) facilitan la especificación de dichos modelos.

Variar el error dentro de la persona: los modelos bayesianos facilitan la especificación de la varianza del error dentro de la persona como un factor aleatorio que varía entre las personas.

Por ejemplo, podría modelar los puntajes en los participantes en los puntos de tiempo comoyi=1,...,nj=1,...J

yijN(μi,σi2)
μi=γ
γN(μγ,σγ2)
σiGamma(α,β)

Por lo tanto, la desviación estándar de cada persona podría modelarse como una distribución gamma. He encontrado que este es un parámetro importante en muchos dominios psicológicos donde las personas varían en la medida en que varían con el tiempo.

Clases de curvas latentes: todavía no he explorado esta idea, pero es relativamente sencillo especificar dos o más funciones de generación de datos posibles para cada individuo y luego dejar que el modelo bayesiano elija el modelo más probable para un individuo determinado. Por lo tanto, normalmente obtendría probabilidades posteriores para cada individuo con respecto a qué forma funcional describe los datos de los individuos.

Como bosquejo de una idea para un modelo, podría tener algo como lo siguiente:

yijN(μij,σ2)
μij=γiλij(1)+(1γi)λij(2)
λij(1)=θ1i(1)+θ2i(1)exp(θ3i(1))
λij(2)=θ1i(2)+θ2i(2)xij+θ3i(2)xij2
γi=Bernoulli(πi)

Donde es el tiempo y representa los valores esperados para un modelo exponencial de tres parámetros y representa los valores esperados para un modelo cuadrático. representa la probabilidad de que el modelo elija .xijλij(1)λij(2)πiλij(1)

Jeromy Anglim
fuente
También me he mudado al marco bayesiano, y he estado leyendo sobre el uso de procesos gaussianos para el análisis de series temporales de formas de función inciertas. Todavía no está claro cómo se puede aplicar al caso de los datos jerárquicos (consulte mi consulta sin respuesta aquí: groups.google.com/d/msg/stan-users/yjDWtMhxQQE/2TiYevy0ZwUJ )
Mike Lawrence