Coeficientes idénticos estimados en el modelo de Poisson vs Cuasi-Poisson

Al modelar datos de recuento de reclamos en un entorno de seguro, comencé con Poisson pero luego noté una sobredispersión. Un Cuasi-Poisson mejor modeló la mayor relación media-varianza que el Poisson básico, pero noté que los coeficientes eran idénticos en los modelos Poisson y Cuasi-Poisson.

Si esto no es un error, ¿por qué sucede esto? ¿Cuál es el beneficio de usar Quasi-Poisson sobre Poisson?

Cosas a tener en cuenta:

Las pérdidas subyacentes son excesivas, lo que (creo) impidió que Tweedie funcionara, pero fue la primera distribución que probé. También examiné los modelos NB, ZIP, ZINB y Hurdle, pero aún encontré que el Cuasi-Poisson era el que mejor se ajustaba.
Probé la sobredispersión a través de la prueba de dispersión en el paquete AER. Mi parámetro de dispersión fue aproximadamente 8.4, con valor p en la magnitud 10 ^ -16.
Estoy usando glm () con family = poisson o quasipoisson y un enlace de registro para el código.
Cuando ejecuto el código de Poisson, salgo con advertencias de "In dpois (y, mu, log = TRUE): non-integer x = ...".

Hilos SE útiles según la orientación de Ben:

r count-data poisson-regression overdispersion quasi-likelihood Frank H.
fuente

¿No sería una distribución Tweedie una mejor idea?

duffymo

Intenté Tweedie desde el primer momento, pero nuestros datos de pérdidas no se basan en nada, sino en forma excesiva. También probé modelos de binomio negativo, ZIP y obstáculo para abordar la dispersión del conteo.

Frank H.

¿Puedes explicar un poco más acerca de dónde provienen los valores no enteros en tus datos?

Ben Bolker

no debe modelar frecuencias / tasas calculando relaciones de counts/exposure. Por el contrario, debe agregar un offset(log(exposure))término offset ( ) a sus modelos.

Ben Bolker

Es práctico, aunque más importante cuando se realiza el modelado de Poisson (no cuasi-Poisson). No sé de una buena referencia de improviso; Si no puede encontrar una respuesta relevante aquí en CrossValidated, sería una buena pregunta de seguimiento.

Ben Bolker

$\chi^2$ $p$

$p$

Como comentamos anteriormente, hay muchos enfoques diferentes para la sobredispersión (Tweedie, diferentes parametrizaciones binomiales negativas, cuasi-verosimilitud, cero inflación / alteración).
Con un factor de sobredispersión de> 5 (8.4), me preocuparía un poco si está siendo impulsado por algún tipo de desajuste del modelo (valores atípicos, inflación cero [que veo que ya has intentado], no linealidad) que representar la heterogeneidad general. Mi enfoque general para esto es la exploración gráfica de los datos sin procesar y el diagnóstico de regresión ...

Ben Bolker
fuente

Muy útil. Ahora veo que los valores p para las variables y los niveles de variables en el Poisson son mucho más estadísticamente significativos que para el Cuasi-Poisson, debido a la escala que mencionó. Hice pruebas de valores atípicos, pero no encontré que esto sea un problema. ¿Cuáles podrían ser algunos otros problemas que están siendo enmascarados por la dispersión excesiva, o ejemplos de tales enfoques para encontrar estos problemas?

Frank H.

Principalmente no linealidad de las respuestas en la escala de enlace (log); verifique los gráficos de residuos vs ajustados y los gráficos de residuos vs predictores de variables para ver si hay patrones.

Ben Bolker

+1 ¡Bien distribuido! Realmente aprecio la claridad de tu primer párrafo.

Alexis

Coeficientes idénticos estimados en el modelo de Poisson vs Cuasi-Poisson

Respuestas: