Me he encontrado con tres propuestas para tratar la sobredispersión en una variable de respuesta de Poisson y un modelo de inicio de efectos fijos:
- Use un cuasi modelo;
- Use GLM binomial negativo;
- Use un modelo mixto con un efecto aleatorio a nivel de sujeto.
¿Pero cuál elegir realmente y por qué? ¿Hay algún criterio real entre estos?
Respuestas:
La regresión de Poisson es solo un GLM:
La gente a menudo habla de la lógica paramétrica para aplicar la regresión de Poisson. De hecho, la regresión de Poisson es solo un GLM. Eso significa que la regresión de Poisson se justifica para cualquier tipo de datos (recuentos, calificaciones, puntajes de exámenes, eventos binarios, etc.) cuando se cumplen dos supuestos: 1) el registro del resultado medio es una combinación lineal de los predictores y 2) La varianza del resultado es igual a la media . Estas dos condiciones se denominan respectivamente la relación modelo-media y la relación media-varianza.
La suposición del modelo medio se puede relajar un poco utilizando un conjunto complejo de ajustes para los predictores. Esto es bueno porque la función de enlace afecta la interpretación de los parámetros; La sutileza de la interpretación marca la diferencia entre responder una pregunta científica y eludir completamente a los consumidores de su análisis estadístico. En otra publicación de SE , analizo la utilidad de las transformaciones logarítmicas para la interpretación.
Sin embargo, resulta que la segunda suposición (relación media-varianza) tiene fuertes implicaciones en la inferencia. Cuando la relación media-varianza no es verdadera, las estimaciones de los parámetros no están sesgadas . Sin embargo, los errores estándar, los intervalos de confianza, los valores p y las predicciones están mal calibrados. Eso significa que no puede controlar el error Tipo I y puede tener una potencia subóptima.
¿Qué pasaría si la varianza media se pudiera relajar para que la varianza sea simplemente proporcional a la media? La regresión binomial negativa y la regresión de Cuasipoisson hacen esto.
Modelos cuasipoisson
Los modelos de cuasipoisson no se basan en la probabilidad. Maximizan una "cuasilikelihood", que es una probabilidad de Poisson hasta una constante proporcional. Esa constante proporcional resulta ser la dispersión. La dispersión se considera una molestia.parámetro. Si bien la rutina de maximización presenta una estimación del parámetro molesto, esa estimación es simplemente un artefacto de los datos en lugar de cualquier valor que generalice a la población. La dispersión solo sirve para "reducir" o "ampliar" los SE de los parámetros de regresión según si la varianza es proporcionalmente menor o mayor que la media. Dado que la dispersión se trata como un parámetro molesto, los modelos cuasipoisson disfrutan de una gran cantidad de propiedades robustas: los datos pueden ser de hecho heterocedásticos (no cumplen con el supuesto de varianza media proporcional) e incluso exhiben pequeñas fuentes de dependencia, y el modelo medio no necesita ser exactamente correcto, pero los IC del 95% para los parámetros de regresión son asintóticamente correctos.Si su objetivo del análisis de datos es medir la asociación entre un conjunto de parámetros de regresión y el resultado, los modelos de cuasipoisson suelen ser el camino a seguir. Una limitación de estos modelos es que no pueden producir intervalos de predicción, los residuos de Pearson no pueden decirle mucho sobre la precisión del modelo medio, y los criterios de información como el AIC o el BIC no pueden comparar estos modelos con otros tipos de modelos.
Modelos binomiales negativos
Es más útil entender la regresión binomial negativa como una regresión de Poisson de 2 parámetros. El modelo medio es el mismo que en los modelos de Poisson y Quasipoisson, donde el registro del resultado es una combinación lineal de predictores. Además, el parámetro "escala" modela una relación media-varianza donde la varianza es meramente proporcional a la media como antes. Sin embargo, a diferencia de los modelos cuasipoisson, este tipo de modelo es un procedimiento basado en la probabilidad exacta. En este caso, la dispersión es un parámetro real que tiene cierto grado de generalización para la población. Esto introduce algunas ventajas sobre el cuasipoisson pero, en mi opinión, impone más suposiciones (no comprobables). A diferencia de los modelos cuasipoisson: los datos deben ser independientes, el modelo medio debe ser correcto y el parámetro de escala debe ser homoscedastic en todo el rango de valores ajustados para obtener la inferencia correcta. Sin embargo, estos pueden evaluarse un poco inspeccionando los residuos de Pearson, y el modelo produce predicciones viables e intervalos de predicción, y es susceptible de comparación con criterios de información.
Los modelos de probabilidad binomial negativa surgen de una mezcla de Poisson-Gamma. Es decir, hay una variable aleatoria Gamma fluctuante desconocida que "alimenta" el parámetro de tasa de Poisson. Dado que el ajuste NB GLM se basa en la probabilidad, generalmente es útil establecer creencias previas sobre el mecanismo de generación de datos y conectarlos con la justificación probabilística del modelo en cuestión. Por ejemplo, si estoy probando el número de corredores que se retiran de las carreras de resistencia de 24 horas, podría considerar que las condiciones ambientales son factores estresantes que no medí y, por lo tanto, contribuyen al riesgo de DNF, como la humedad o la temperatura fría que afectan los neumáticos tracción y, por lo tanto, el riesgo de un spin-out y un accidente.
Modelos para datos dependientes: GLMMs vs GEE
Los modelos mixtos lineales generalizados (GLMM) para datos de Poisson no se comparan con los enfoques anteriores. Los GLMM responden una pregunta diferente y se usan en diferentes estructuras de datos. Aquí las fuentes de dependencia entre los datos se miden explícitamente. Los GLMM hacen uso de intercepciones aleatorias y pendientes aleatorias para dar cuenta de la heterogeneidad de nivel individual. Esto modifica lo que estimamos. Los efectos aleatorios modifican la media y la varianza que se modela en lugar de solo la varianza como se discutió anteriormente.
Hay dos niveles posibles de asociación que pueden medirse en datos dependientes: nivel de población (marginal) y nivel individual (condicional). Los GLMM afirman que miden las asociaciones de nivel individual (condicional): es decir, dada la gran cantidad de contribuyentes de nivel individual para el resultado, cuál es el efecto relativo de una combinación de predictores. Como ejemplo, los cursos de preparación para exámenes pueden tener poco efecto para los niños que asisten a escuelas ejemplares, mientras que los niños del centro de la ciudad pueden beneficiarse enormemente. El efecto de nivel individual es entonces sustancialmente mayor en esta circunstancia ya que los niños con ventaja están demasiado por encima de la curva en términos de exposiciones positivas.
Si aplicamos ingenuamente modelos quasipoisson o binomiales negativos a datos dependientes, los modelos NB estarían equivocados y los modelos Quasipoisson serían ineficientes. Sin embargo, el GEE extiende el modelo de cuasipoisson para modelar explícitamente estructuras de dependencia como el GLMM, pero el GEE mide una tendencia marginal (nivel de población) y obtiene los pesos correctos, los errores estándar y la inferencia.
Ejemplo de análisis de datos:
Esta publicación ya es demasiado larga :) Hay una buena ilustración de los dos primeros modelos en este tutorial , junto con referencias a más lecturas si está interesado. Los datos en cuestión involucran los hábitos de anidación de los cangrejos herradura: las hembras se sientan en nidos y los machos (satélites) se unen a ella. Los investigadores querían medir el número de machos unidos a una hembra en función de las características de la hembra. Espero haber subrayado por qué los modelos mixtos no son comparables: si tiene datos dependientes, debe usar el modelo correcto para la pregunta que esos datos dependientes están tratando de responder, ya sea un GLM o un GEE.
Referencias
[1] Agresti, Análisis de datos categóricos segunda edición
[2] Diggle, Heagerty, Liang, Zeger, Análisis de datos longitudinales 2ª ed.
fuente