Tengo datos de recuento (análisis de demanda / oferta con recuento de clientes, dependiendo de, posiblemente, muchos factores). Intenté una regresión lineal con errores normales, pero mi diagrama QQ no es realmente bueno. Intenté una transformación logarítmica de la respuesta: una vez más, mal QQ-plot.
Así que ahora estoy intentando una regresión con errores de Poisson. Con un modelo con todas las variables significativas, obtengo:
Null deviance: 12593.2 on 53 degrees of freedom
Residual deviance: 1161.3 on 37 degrees of freedom
AIC: 1573.7
Number of Fisher Scoring iterations: 5
La desviación residual es mayor que los grados residuales de libertad: tengo una dispersión excesiva.
¿Cómo puedo saber si necesito usar cuasipoisson? ¿Cuál es el objetivo de cuasipoisson en este caso? Leí este consejo en "The R Book" de Crawley, pero no veo el punto ni una gran mejora en mi caso.
Tiene razón, es probable que estos datos estén dispersos en exceso. Quasipoisson es un remedio: también estima un parámetro de escala (que se fija para los modelos de Poisson ya que la varianza también es la media) y proporcionará un mejor ajuste. Sin embargo, ya no es la máxima probabilidad lo que está haciendo, y ciertas pruebas e índices de modelo no se pueden usar. Se puede encontrar una buena discusión en Venables y Ripley, Estadísticas modernas aplicadas con S (Sección 7.5) .
Una alternativa es utilizar un modelo binomial negativo, por ejemplo, la
glm.nb()
función en el paqueteMASS
.fuente
glm()
yglm.nb()
puede dar una inferencia mal calibrada; Sería razonable esperar que se exagere la precisión. Sería útil saber más acerca de por qué desea hacer esta regresión; En su lugar, se podrían utilizar posibles métodos que funcionen mejor en pequeñas muestras.