Me gustaría probar en qué regresión se ajusta mejor a mis datos. Mi variable dependiente es un recuento y tiene muchos ceros.
Y necesitaría ayuda para determinar qué modelo y familia usar (poisson o cuasipoisson, o regresión de poisson inflada a cero) y cómo probar los supuestos.
- Regresión de Poisson: por lo que yo entiendo, la fuerte suposición es que la variable dependiente significa = varianza. ¿Cómo se prueba esto? ¿Cuán juntos deben estar? ¿Se usan para esto la media y la varianza incondicional o condicional? ¿Qué hago si esta suposición no se cumple?
- Leí que si la varianza es mayor que la media, tenemos una dispersión excesiva, y una forma potencial de lidiar con esto es incluir variables más independientes, o familia = cuasipoisson. ¿Esta distribución tiene otros requisitos o suposiciones? ¿Qué prueba utilizo para ver si (1) o (2) se ajusta mejor, simplemente
anova(m1,m2)
? - También leí que la distribución binomial negativa se puede usar cuando aparece una sobredispersión. ¿Cómo hago esto en R? ¿Cuál es la diferencia con cuasipoisson?
Regresión de Poisson inflada a cero: leí que el uso de la prueba vuong verifica qué modelos se ajustan mejor.
> vuong (model.poisson, model.zero.poisson)
¿Es eso correcto? ¿Qué supuestos tiene una regresión inflada a cero?
El Grupo de Consultoría Estadística de los Servicios de Tecnología Académica de la UCLA tiene una sección sobre regresiones de Poisson infladas a cero, y prueba el modelo inflado a cero (a) contra el modelo de Poisson estándar (b):
> m.a <- zeroinfl(count ~ child + camper | persons, data = zinb)
> m.b <- glm(count ~ child + camper, family = poisson, data = zinb)
> vuong(m.a, m.b)
No entiendo qué hace la | persons
parte del primer modelo y por qué puede comparar estos modelos. Esperaba que la regresión fuera la misma y solo usara una familia diferente.
stat.desc (dep_var) - y luego observe si la media y la varianza son iguales. Desde aquí también puede calcular el% de ceros en su vector.
fuente