Estoy usando un modelo de regresión de Poisson para los datos de conteo y me pregunto si hay razones para no usar el error estándar robusto para las estimaciones de los parámetros. Estoy particularmente preocupado ya que algunas de mis estimaciones sin robustez no son significativas (p. Ej., P = 0.13) pero con robustez son significativas (p <0.01).
En SAS esto está disponible mediante el uso de la declaración repetida en proc genmod
(por ejemplo, repeated subject=patid;
). He estado usando http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm como un ejemplo que cita un artículo de Cameron y Trivedi (2009) en apoyo del uso de errores estándar robustos.
Diferenciaré los análisis usando errores estándar basados en modelos versus robustos al referirme a estos últimos como "GEE", que de hecho es una definición intercambiable. Además de la fantástica explicación de Scortchi:
Los GEE pueden estar "sesgados" en muestras pequeñas, es decir, 10-50 sujetos: (Lipsitz, Laird y Harrington, 1990; Emrich y Piedmonte, 1992; Sharples y Breslow, 1992; Lipsitz et al., 1994; Qu, Piedmonte y Williams, 1994; Gunsolley, Getchell y Chinchilli, 1995; Sherman y le Cessie, 1997.) Cuando digo que los GEE están sesgados, lo que quiero decir es que la estimación del error estándar puede ser conservadora o anticonservativa debido a recuentos de células pequeñas o nulas. , dependiendo de qué valores ajustados exhiban este comportamiento y cuán consistentes sean con la tendencia general del modelo de regresión.
En general, cuando el modelo paramétrico se especifica correctamente, aún se obtienen estimaciones de error estándar correctas de los CI basados en el modelo, pero el objetivo de utilizar GEE es acomodar ese gran "si". Los GEE permiten que el estadístico simplemente especifique un modelo de probabilidad de trabajo para los datos, y los parámetros (en lugar de ser interpretados en el marco estrictamente paramétrico) se consideran un tipo de "tamiz" que puede generar valores reproducibles independientemente de la generación subyacente de datos desconocidos. mecanismo. Este es el corazón y el alma del análisis semiparamétrico, del cual un GEE es un ejemplo.
Los GEE también manejan fuentes de covarianza no medidas en los datos, incluso con la especificación de una matriz de correlación independiente. Esto se debe al uso de una matriz de covarianza empírica en lugar de modelo. En el modelado de Poisson, por ejemplo, podría estar interesado en las tasas de fertilidad del salmón muestreado de varias corrientes. Los óvulos cosechados de peces hembra pueden tener una distribución subyacente de Poisson, pero la variación genética que forma parte de la heretibilidad compartida y los recursos disponibles en corrientes específicas podría hacer que los peces dentro de esas corrientes sean más similares que entre otras corrientes. El GEE proporcionará estimaciones correctas del error estándar de la población siempre que la tasa de muestreo sea coherente con su proporción de población (o esté estratificada de otras maneras).
fuente
Hace una prueba de nulo de equidispersión. Es una simple regresión auxiliar de OLS. Hay una descripción en la página 670 de Cameron y Trivedi. Con una gran sobredispersión, los errores estándar están muy desinflados, por lo que desconfiaría de cualquier resultado que dependa de un VCE no robusto cuando hay una sobredispersión. Con la subdispersión, lo contrario será cierto, lo que suena como el escenario en el que te encuentras.
fuente