Suposiciones de regresión de Poisson y cómo probarlas en R

11

Me gustaría probar en qué regresión se ajusta mejor a mis datos. Mi variable dependiente es un recuento y tiene muchos ceros.

Y necesitaría ayuda para determinar qué modelo y familia usar (poisson o cuasipoisson, o regresión de poisson inflada a cero) y cómo probar los supuestos.

  1. Regresión de Poisson: por lo que yo entiendo, la fuerte suposición es que la variable dependiente significa = varianza. ¿Cómo se prueba esto? ¿Cuán juntos deben estar? ¿Se usan para esto la media y la varianza incondicional o condicional? ¿Qué hago si esta suposición no se cumple?
  2. Leí que si la varianza es mayor que la media, tenemos una dispersión excesiva, y una forma potencial de lidiar con esto es incluir variables más independientes, o familia = cuasipoisson. ¿Esta distribución tiene otros requisitos o suposiciones? ¿Qué prueba utilizo para ver si (1) o (2) se ajusta mejor, simplemente anova(m1,m2)?
  3. También leí que la distribución binomial negativa se puede usar cuando aparece una sobredispersión. ¿Cómo hago esto en R? ¿Cuál es la diferencia con cuasipoisson?
  4. Regresión de Poisson inflada a cero: leí que el uso de la prueba vuong verifica qué modelos se ajustan mejor.

    > vuong (model.poisson, model.zero.poisson)

    ¿Es eso correcto? ¿Qué supuestos tiene una regresión inflada a cero?

  5. El Grupo de Consultoría Estadística de los Servicios de Tecnología Académica de la UCLA tiene una sección sobre regresiones de Poisson infladas a cero, y prueba el modelo inflado a cero (a) contra el modelo de Poisson estándar (b):

    > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb)
    > m.b <- glm(count ~ child + camper, family = poisson, data = zinb)
    > vuong(m.a, m.b)

No entiendo qué hace la | personsparte del primer modelo y por qué puede comparar estos modelos. Esperaba que la regresión fuera la misma y solo usara una familia diferente.

Torvon
fuente

Respuestas:

8

1) Calcule la media y la varianza muestral. debe ser distribuido, donde es el tamaño de la muestra y el proceso es realmente Poisson, ya que son estimaciones independientes de la misma varianza.X¯S2F(1,n1)n

Tenga en cuenta que esta prueba ignora las covariables, por lo que probablemente no sea la mejor manera de verificar la dispersión excesiva en esa situación.

Tenga en cuenta también que esta prueba es probablemente débil contra la hipótesis de cero inflado.

3) binomio negativo en R: uso glm.nbdel MASSpaquete, o use la zeroinflfunción del psclpaquete usando el enlace binomial negativo.

4) zip (Poisson inflado a cero) es un modelo mixto. Tiene un resultado binario, según el cual un sujeto pertenece al grupo A (donde un 0 es seguro) o al grupo B (donde los recuentos son Poisson o neg binomial distribuido). Un 0 observado se debe a sujetos del grupo A + sujetos del grupo B que tuvieron suerte. Ambos aspectos del modelo pueden depender de las covariables: la pertenencia a grupos se modela como una logística (las probabilidades de registro son lineales en las covariables) y la parte de Poisson se modela de la manera habitual: la media del registro es lineal en las covariables. Por lo tanto, necesita los supuestos habituales para una logística (para la cierta parte 0) y los supuestos habituales para un Poisson. En otras palabras, un modelo zip no curará sus problemas de sobredispersión: solo cura una gran cantidad de ceros.

5) no estoy seguro de cuál es el conjunto de datos y no pude encontrar la referencia. zeroinfl necesita un modelo tanto para la parte de Poisson como para la parte binaria (cierto 0 o no). La cierta parte 0 va en segundo lugar. Entonces, ma está diciendo que si la persona tiene un cierto 0 o no depende de "personas", y suponiendo que el sujeto no sea un cierto 0, el recuento es una función de la persona que va a acampar y al niño. En otras palabras, log (media) es una función lineal de campista y niño para aquellos sujetos que no requieren un recuento de 0.

mb es solo un modelo lineal general de conteo en términos de campista y niño, ambos se supone que son efectos fijos. La función de enlace es Poisson.

Placidia
fuente
¡Gracias! Una pregunta rápida: ¿hay alguna manera de producir r ^ 2 o pseudo-r ^ 2 como Nagelkerke en glm usando family = poisson en R? ¡Gracias!
Torvon
0
  1. biblioteca (pastecs)

stat.desc (dep_var) - y luego observe si la media y la varianza son iguales. Desde aquí también puede calcular el% de ceros en su vector.

Fingerman
fuente
3
Bienvenido al sitio. Esto es más como un comentario que una respuesta; Además, es mejor usar la ortografía adecuada, etc. Esto no es mensajes de texto y muchas personas que leen este sitio tienen inglés como segundo o tercer idioma o ...
Peter Flom - Restablece a Monica
3
Por favor, trabaje para mejorar esta respuesta rápida.
chl