Estoy tratando de modelar datos de conteo en R que aparentemente están poco dispersos (Parámetro de dispersión ~ .40). Esta es probablemente la razón por la cual un modelo binomial ( ) glm
con family = poisson
o negativo glm.nb
no es significativo. Cuando miro los descriptivos de mis datos, no tengo el sesgo típico de los datos de conteo y los residuos en mis dos condiciones experimentales también son homogéneos.
Entonces mis preguntas son:
¿Tengo que usar análisis de regresión especiales para mis datos de conteo, si mis datos de conteo realmente no se comportan como datos de conteo? A veces me enfrento a la no normalidad (generalmente debido a la curtosis), pero utilicé el método de arranque por percentil para comparar las medias recortadas (Wilcox, 2012) para explicar la no normalidad. ¿Se pueden sustituir los métodos para contar datos por cualquier método robusto sugerido por Wilcox y realizado en el paquete WRS?
Si tengo que usar análisis de regresión para los datos de recuento, ¿cómo considero la subdispersión? El Poisson y la distribución binomial negativa suponen una mayor dispersión, por lo que no debería ser apropiado, ¿verdad? Estaba pensando en aplicar la distribución cuasi-Poisson , pero eso generalmente se recomienda para la sobredispersión. Leí acerca de los modelos beta-binomiales que parecen ser capaces de explicar la dispersión excesiva o insuficiente en el
VGAM
paquete de R. Sin embargo, los autores parecen recomendar una distribución inclinada de Poisson , pero no puedo encontrarla en el paquete .
¿Alguien puede recomendar un procedimiento para datos poco dispersos y tal vez proporcionar algún código R de ejemplo para ello?
Respuestas:
La mejor forma estándar de manejar datos de Poisson poco dispersos es mediante el uso de un Poisson generalizado, o tal vez un modelo de obstáculo. También se pueden usar tres modelos de recuento de parámetros para datos poco dispersos; por ejemplo, Faddy-Smith, Waring, Famoye, Conway-Maxwell y otros modelos de conteo generalizados. El único inconveniente con estos es la interpretabilidad. Pero para los datos generales poco dispersos se debe utilizar el Poisson generalizado. Es como un binomio negativo para datos sobredispersos. Discuto esto con cierto detalle en dos de mis libros, Modeling Count Data (2014) y Negative Binomial Regression, 2nd edition, (2011), ambos de Cambridge University Press. En R, el paquete VGAM permite la regresión generalizada de Poisson (GP). Los valores negativos del parámetro de dispersión indican un ajuste por subdispersión. También puede usar el modelo GP para datos sobredispersos, pero generalmente el modelo NB es mejor. Cuando se trata de eso, lo mejor es determinar la causa de la dispersión insuficiente y luego seleccionar el modelo más adecuado para tratarlo.
fuente
Encontré una vez un Poisson poco disperso que tenía que ver con la frecuencia con la que la gente jugaba un juego social. Resultó que esto se debió a la extrema regularidad con la que las personas jugaban los viernes. Eliminar los datos del viernes me dio el esperado Poisson sobredispersado. Quizás tenga la opción de editar de manera similar sus datos.
fuente
Hay situaciones en las que la subdispersión se fusiona con la inflación cero, lo cual es típico para los recuentos de niños preferidos por individuos de ambos sexos. No he encontrado una manera de capturar esto hasta la fecha
fuente