Tengo un conjunto de datos que consiste en una serie de recuentos de casos mensuales de "palo roto" de varios sitios. Estoy tratando de obtener una estimación resumida única de dos técnicas diferentes:
Técnica 1: Ajuste un "palo roto" con un Poisson GLM con una variable indicadora 0/1, y usando una variable de tiempo y tiempo ^ 2 para controlar las tendencias en el tiempo. La estimación de la variable indicadora 0/1 y el SE se agrupan utilizando una técnica de método de momentos bastante ascendente y descendente, o utilizando el paquete tlnise en R para obtener una estimación "bayesiana". Esto es similar a lo que Peng y Dominici hacen con los datos de contaminación del aire, pero con menos sitios (~ una docena).
Técnica 2: abandone parte del control específico del sitio para las tendencias en el tiempo y utilice un modelo mixto lineal. Particularmente:
lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)
Mi pregunta involucra los errores estándar que surgen de estas estimaciones. El error estándar de la Técnica 1, que en realidad usa un conjunto de tiempo semanal en lugar de mensual y, por lo tanto, debería tener más precisión, tiene un error estándar en la estimación de ~ 0.206 para el enfoque del Método de Momentos y ~ 0.306 para el tiempo.
El método lmer da un error estándar de ~ 0.09. Las estimaciones del efecto son razonablemente cercanas, por lo que no parece ser que solo se estén centrando en estimaciones de resumen diferentes, ya que el modelo mixto es mucho más eficiente.
¿Es eso algo razonable de esperar? Si es así, ¿por qué los modelos mixtos son mucho más eficientes? ¿Es este un fenómeno general o un resultado específico de este modelo?
fuente
Respuestas:
Sé que esta es una pregunta antigua, pero es relativamente popular y tiene una respuesta simple, por lo que espero que sea útil para otros en el futuro. Para una visión más profunda, eche un vistazo al curso de Christoph Lippert sobre Modelos lineales mixtos que los examina en el contexto de los estudios de asociación de todo el genoma aquí . En particular, ver la Lección 5 .
La razón por la que el modelo mixto funciona mucho mejor es que está diseñado para tener en cuenta exactamente lo que está tratando de controlar: la estructura de la población. Las "poblaciones" en su estudio son los diferentes sitios que utilizan, por ejemplo, implementaciones ligeramente diferentes pero consistentes del mismo protocolo. Además, si los sujetos de su estudio son personas, las personas agrupadas de diferentes sitios tienen menos probabilidades de estar relacionadas que las personas del mismo sitio, por lo que la relación con la sangre también puede desempeñar un papel.
Debido a que está tratando de controlar la estructura de la población explícitamente, no es sorprendente que el modelo lineal mixto haya superado a otras técnicas de regresión.
fuente