¿Poisson o cuasi poisson en una regresión con datos de conteo y sobredispersión?

16

Tengo datos de recuento (análisis de demanda / oferta con recuento de clientes, dependiendo de, posiblemente, muchos factores). Intenté una regresión lineal con errores normales, pero mi diagrama QQ no es realmente bueno. Intenté una transformación logarítmica de la respuesta: una vez más, mal QQ-plot.

Así que ahora estoy intentando una regresión con errores de Poisson. Con un modelo con todas las variables significativas, obtengo:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

La desviación residual es mayor que los grados residuales de libertad: tengo una dispersión excesiva.

¿Cómo puedo saber si necesito usar cuasipoisson? ¿Cuál es el objetivo de cuasipoisson en este caso? Leí este consejo en "The R Book" de Crawley, pero no veo el punto ni una gran mejora en mi caso.

Antonin
fuente

Respuestas:

18

Cuando intente determinar qué tipo de ecuación glm desea estimar, debe pensar en las relaciones plausibles entre el valor esperado de su variable objetivo dadas las variables del lado derecho (rhs) y la varianza de la variable objetivo dadas las variables rhs. Los gráficos de los residuos frente a los valores ajustados de su modelo Normal pueden ayudar con esto. Con la regresión de Poisson, la relación asumida es que la varianza es igual al valor esperado; bastante restrictivo, creo que estarás de acuerdo. Con una regresión lineal "estándar", la suposición es que la varianza es constante independientemente del valor esperado. Para una regresión cuasi-poisson, se supone que la varianza es una función lineal de la media; para regresión binomial negativa, una función cuadrática.

Sin embargo, no está restringido a estas relaciones. La especificación de una "familia" (que no sea "cuasi") determina la relación media-varianza. No tengo The R Book, pero imagino que tiene una tabla que muestra las funciones familiares y las relaciones de varianza media correspondientes. Para la familia "cuasi" puede especificar cualquiera de varias relaciones de varianza media, e incluso puede escribir la suya; ver la documentación R . Es posible que pueda encontrar un ajuste mucho mejor especificando un valor no predeterminado para la función de varianza media en un modelo "cuasi".

También debe prestar atención al rango de la variable de destino; en su caso son datos de conteo no negativos. Si tiene una fracción sustancial de valores bajos (0, 1, 2), las distribuciones continuas probablemente no encajarán bien, pero si no lo hace, no hay mucho valor en el uso de una distribución discreta. Es raro que considere las distribuciones de Poisson y Normal como competidores.

jbowman
fuente
Sí tienes razón. Aquí tengo datos de conteo pero con valores grandes. Debería usar una distribución continua.
Antonin
8

Tiene razón, es probable que estos datos estén dispersos en exceso. Quasipoisson es un remedio: también estima un parámetro de escala (que se fija para los modelos de Poisson ya que la varianza también es la media) y proporcionará un mejor ajuste. Sin embargo, ya no es la máxima probabilidad lo que está haciendo, y ciertas pruebas e índices de modelo no se pueden usar. Se puede encontrar una buena discusión en Venables y Ripley, Estadísticas modernas aplicadas con S (Sección 7.5) .

Una alternativa es utilizar un modelo binomial negativo, por ejemplo, la glm.nb()función en el paquete MASS.

Momo
fuente
1
Pero, ¿estoy "obligado" a usar cuasipoisson en este caso? Pregunto ya que mi modelo no cuasipoisson es mejor (solo poisson básico) en el sentido de que más variables son significativas.
Antonin
2
¿Eso no tiene sentido? Si utilicé un modelo de regresión donde supuse que sigma es .00001 en lugar de utilizar la estimación de los datos (digamos 2.3), entonces, por supuesto, las cosas serán más significativas.
Dason
1
Antonin: Yo diría que solo porque más variables son significativas, no mejora las cosas. Estos, como señaló Dason, pueden ser fácilmente falsos positivos si subestima la varianza del error. Definitivamente usaría un cuasi-método o el binomio negativo en este caso, pero a menos que revise su artículo, no se verá obligado a hacer nada;)
Momo
¡Muchas gracias por sus respuestas! ¿Conoces alguna forma de comparar modelos cuasi-poisson y binomiales negativos? En la mayoría de los libros, presentan los modelos pero no explican cómo elegir entre ellos.
Antonin
1
Desde la salida, parece que está ajustando 53-17 = 16 parámetros a 53 + 1 = 54 puntos de datos; ¿es esto correcto? Si es así, cualquier método que se base en aproximaciones asintóticas, incluido el uso de glm()y glm.nb()puede dar una inferencia mal calibrada; Sería razonable esperar que se exagere la precisión. Sería útil saber más acerca de por qué desea hacer esta regresión; En su lugar, se podrían utilizar posibles métodos que funcionen mejor en pequeñas muestras.
invitado