¿Cuál es el modelo apropiado para los datos de recuento poco dispersos?

24

Estoy tratando de modelar datos de conteo en R que aparentemente están poco dispersos (Parámetro de dispersión ~ .40). Esta es probablemente la razón por la cual un modelo binomial ( ) glmcon family = poissono negativo glm.nbno es significativo. Cuando miro los descriptivos de mis datos, no tengo el sesgo típico de los datos de conteo y los residuos en mis dos condiciones experimentales también son homogéneos.

Entonces mis preguntas son:

  1. ¿Tengo que usar análisis de regresión especiales para mis datos de conteo, si mis datos de conteo realmente no se comportan como datos de conteo? A veces me enfrento a la no normalidad (generalmente debido a la curtosis), pero utilicé el método de arranque por percentil para comparar las medias recortadas (Wilcox, 2012) para explicar la no normalidad. ¿Se pueden sustituir los métodos para contar datos por cualquier método robusto sugerido por Wilcox y realizado en el paquete WRS?

  2. Si tengo que usar análisis de regresión para los datos de recuento, ¿cómo considero la subdispersión? El Poisson y la distribución binomial negativa suponen una mayor dispersión, por lo que no debería ser apropiado, ¿verdad? Estaba pensando en aplicar la distribución cuasi-Poisson , pero eso generalmente se recomienda para la sobredispersión. Leí acerca de los modelos beta-binomiales que parecen ser capaces de explicar la dispersión excesiva o insuficiente en el VGAMpaquete de R. Sin embargo, los autores parecen recomendar una distribución inclinada de Poisson , pero no puedo encontrarla en el paquete .

¿Alguien puede recomendar un procedimiento para datos poco dispersos y tal vez proporcionar algún código R de ejemplo para ello?

Sil
fuente
1
¿Cómo sabes que tus datos están poco dispersos? ¿Cómo estás calculando el parámetro de dispersión?
Hong Ooi
1
También nos ayudaría contarnos más sobre lo que le interesa. Para las estimaciones puntuales de predictores lineales y la predicción de valores, la baja dispersión rara vez es un problema, pero las pruebas y los intervalos pueden ser innecesariamente conservadores (cuasi familias ayudarían con eso). Dicho esto, para un enfoque de probabilidad "normal", consulte el COM Poisson y otros modelos de Poisson generalizados.
Momo
@ Hung Ooi: probé la dispersión con el test de dispersión (modelo de Poisson, alternativa = c ("menos")) y la prueba resultó significativa.
Sil
1
@ Momo: Quiero probar si las diadas de negociación en dos condiciones experimentales difieren en las ofertas correctas que hacen. Las ofertas correctas significan que las díadas reclaman más problemas que corresponden a los intereses respectivos de sus equipos en lugar de reclamar problemas más valiosos para la otra parte. Primero, ni siquiera sabía que se trata de datos de recuento. ¿Te refieres a la distribución Conway-Maxwell-Poisson por COM Poisson? Muchas gracias ya!
Sil
3
Gracias por la información adicional. Sí, me refería al conway-maxwell poisson. Shmueli & co desarrolló un tipo de modelo lineal generalizado para él, también hay un paquete R si desea probar.
Momo

Respuestas:

9

La mejor forma estándar de manejar datos de Poisson poco dispersos es mediante el uso de un Poisson generalizado, o tal vez un modelo de obstáculo. También se pueden usar tres modelos de recuento de parámetros para datos poco dispersos; por ejemplo, Faddy-Smith, Waring, Famoye, Conway-Maxwell y otros modelos de conteo generalizados. El único inconveniente con estos es la interpretabilidad. Pero para los datos generales poco dispersos se debe utilizar el Poisson generalizado. Es como un binomio negativo para datos sobredispersos. Discuto esto con cierto detalle en dos de mis libros, Modeling Count Data (2014) y Negative Binomial Regression, 2nd edition, (2011), ambos de Cambridge University Press. En R, el paquete VGAM permite la regresión generalizada de Poisson (GP). Los valores negativos del parámetro de dispersión indican un ajuste por subdispersión. También puede usar el modelo GP para datos sobredispersos, pero generalmente el modelo NB es mejor. Cuando se trata de eso, lo mejor es determinar la causa de la dispersión insuficiente y luego seleccionar el modelo más adecuado para tratarlo.

Joseph Hilbe
fuente
¡Dar una buena acogida! Registre y / o combine sus cuentas (puede encontrar información sobre cómo hacerlo en la sección Mi cuenta de nuestro centro de ayuda ), luego podrá editar y comentar su propia pregunta. (Su cuenta original está aquí .)
gung - Restablezca Monica
¿Se puede realizar un análisis generalizado de Poisson en SPSS?
Grace Carroll
3

Encontré una vez un Poisson poco disperso que tenía que ver con la frecuencia con la que la gente jugaba un juego social. Resultó que esto se debió a la extrema regularidad con la que las personas jugaban los viernes. Eliminar los datos del viernes me dio el esperado Poisson sobredispersado. Quizás tenga la opción de editar de manera similar sus datos.

Alondra Bradsher
fuente
1

Hay situaciones en las que la subdispersión se fusiona con la inflación cero, lo cual es típico para los recuentos de niños preferidos por individuos de ambos sexos. No he encontrado una manera de capturar esto hasta la fecha

Germaniawerks
fuente