Soy un epidemiólogo que intenta comprender los GEE para analizar adecuadamente un estudio de cohorte (usando la regresión de Poisson con un enlace de registro, para estimar el riesgo relativo). Tengo algunas preguntas sobre la "correlación de trabajo" que me gustaría que alguien más conocedor aclare:
(1) Si tengo mediciones repetidas en el mismo individuo, ¿es generalmente más razonable asumir una estructura intercambiable? (¿O un autorregresivo si las mediciones muestran una tendencia)? ¿Qué pasa con la independencia? ¿Hay casos en los que uno podría asumir independencia para las mediciones en el mismo individuo?
(2) ¿Hay alguna forma (razonablemente simple) de evaluar la estructura adecuada mediante el examen de los datos?
(3) Noté que, al elegir una estructura de independencia, obtengo las mismas estimaciones puntuales (pero errores estándar más bajos) que cuando ejecuto una regresión de Poisson simple (usando R, función glm()
y geeglm()
del paquete geepack
). ¿Por qué está pasando esto? Entiendo que con GEE usted estima un modelo promediado por la población (en contraste con el tema específico), por lo que debe obtener las mismas estimaciones puntuales solo en el caso de regresión lineal.
(4) Si mi cohorte está en varios sitios de ubicación (pero una medición por persona), ¿debería elegir una independencia o una correlación de trabajo intercambiable, y por qué? Quiero decir, las personas en cada sitio aún son independientes entre sí, ¿verdad? Por lo tanto, para un modelo específico de sujeto, por ejemplo, yo especificaría el sitio como un efecto aleatorio. Sin embargo, con GEE, la independencia y el intercambio dan estimaciones diferentes y no estoy seguro de cuál es mejor en términos de supuestos subyacentes.
(5) ¿Puede GEE manejar una agrupación jerárquica de 2 niveles, es decir, una cohorte multisitio con medidas repetidas por individuo? En caso afirmativo, ¿qué debo especificar como una variable de agrupación geeglm()
y cuál debería ser la correlación de trabajo si se supone, por ejemplo, "independencia" para el primer nivel (sitio) e "intercambiable" o "autorregresivo" para el segundo nivel (individual)?
Entiendo que estas son bastantes preguntas, y algunas de ellas pueden ser bastante básicas, pero aún así son muy difíciles para mí (¿y quizás para otros novatos?). Por lo tanto, cualquier ayuda es enorme y sinceramente apreciada, y para mostrar esto, he comenzado una recompensa.
(1) Probablemente necesitará algún tipo de estructura autorregresiva, simplemente porque esperamos que las mediciones tomadas más separadas estén menos correlacionadas que las tomadas más juntas. Intercambiable supondría que todos están igualmente correlacionados. Pero como con todo lo demás, depende.
(2) Creo que este tipo de decisión se reduce a pensar en cómo se generaron los datos, en lugar de ver cómo se ven.
(4) depende. Por ejemplo, los niños anidados en las escuelas no deberían, en la mayoría de los casos, ser tratados como independientes. Debido a los patrones sociales, etc., si sé algo sobre un niño en una escuela determinada, entonces probablemente sé al menos un poco sobre otros niños en las escuelas. Una vez utilicé GEE para analizar las relaciones entre los diferentes indicadores sociales y económicos y la prevalencia de la obesidad en una cohorte de nacimientos donde los participantes estaban anidados en vecindarios. Usé una estructura intercambiable. Puede encontrar el documento aquí y consultar algunas de las referencias, incluidas 2 de revistas epi.
(5) Aparentemente sí (por ejemplo, vea este ejemplo ), pero no puedo ayudar con las especificaciones R de hacer esto.
Zeger SL, Liang KY, Albert PS. Modelos para datos longitudinales: un enfoque de ecuación de estimación generalizada. Biometría 1988; 44: 1049–60.
Hubbard AE, Ahern J, Fleischer N, van der Laan M, Lippman S, Bruckner T, Satariano W. Para GEE o no para GEE: comparando la función de estimación y los métodos basados en la probabilidad para estimar las asociaciones entre vecindarios y salud. Epidemiología. 2009
Hanley JA, Negassa A, Edwardes MDB, Forrester JE. Análisis estadístico de datos correlacionados utilizando ecuaciones de estimación generalizadas: una orientación. Soy J Epidemiol. 2003; 157: 364.
fuente
(0) Comentarios generales: la mayoría de los modelos que veo en validación cruzada son demasiado complicados. Simplifica si es posible. A menudo vale la pena modelar con GEE y un modelo mixto para comparar resultados.
(1) Sí Elija intercambiable. Mi respuesta inequívoca se basa en el beneficio más ampliamente promocionado de GEE: la resistencia de las estimaciones a los supuestos formulados.
Si observa los estudios en su campo, debería ver que exch es la opción predeterminada. No significa que sea el mejor, pero debería ser el primero en considerar. Asesorar a exch será el mejor consejo sin tener un conocimiento detallado de sus datos.
(2) Sí, existen enfoques basados en datos como "QIC". Este es un ejemplo de Stata, pero ampliamente aceptado como una opción razonable, aunque muy rara vez se utiliza en la práctica:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Las estimaciones puntuales nunca son exactamente iguales (a menos que esté utilizando una estructura de correlación indep), pero generalmente son bastante cercanas. Puede encontrar muchos artículos que comparan estimaciones del modelo de efectos simples / gee / mixtos para tener una idea de esto ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) La mayoría de los libros de texto también tienen una tabla o dos por esto. Para una estructura de correlación independiente, esencialmente está ejecutando el modelo de Poisson con SE robustas. Entonces las estimaciones serán exactamente las mismas. Los SE suelen ser más grandes. Pero a veces, los SE robustos son más pequeños (es decir, la vida de Google proporciona una explicación sin dolor si está interesado)
(4) Ver (1) y (2) arriba.
(5) No. O mejor dicho, puedes hacer cualquier cosa si pones suficiente esfuerzo en ello, pero rara vez vale la pena.
fuente
Estás usando el enfoque equivocado con un gee para hacer lo que estás haciendo porque no conoces la estructura y tus resultados probablemente se confundirán. Consulte a Jamie Robinson esto. Necesitas usar mucho tiempo. TMLE (mark van der laan) o quizás un gee con pesos iptw. No tener en cuenta la correlación subestima la varianza. Solo piense que si todas las medidas repetidas estuvieran 100% correlacionadas, entonces efectivamente tendría muchas menos observaciones (esencialmente solo n para sus n sujetos) y n menor significa mayor varianza.
fuente