Modelado paramétrico de varianza de datos de conteo

12

Estoy buscando modelar algunos datos, pero no estoy seguro de qué tipo de modelo puedo usar. Tengo datos de conteo y quiero un modelo que proporcione estimaciones paramétricas tanto de la media como de la varianza de los datos. Es decir, tengo varios factores predictivos y quiero determinar si alguno de ellos influye en la varianza (no solo la media del grupo).

Sé que la regresión de Poisson no funcionará porque la varianza es igual a la media; Esta suposición no es válida en mi caso, así que sé que hay una sobredispersión. Sin embargo, un modelo binomial negativo solo genera un único parámetro de sobredispersión, no uno que sea función de los predictores en el modelo. ¿Qué modelo puede hacer esto?

Además, se agradecería una referencia a un libro o documento que discuta el modelo y / o un paquete R que implemente el modelo.

Brian Diggs
fuente
1
¿Cómo sabes que hay una sobredispersión sin primero hacer la regresión de Poisson? Después de todo, comparar la varianza de los valores brutos (respuesta) con su media no es relevante: lo importante es la bondad de ajuste del modelo de Poisson (este es el análogo de evaluar la distribución de residuos en un modelo lineal en comparación con evaluar la distribución de la variable de respuesta). Otra forma de decir esto es que el vínculo entre las variables independientes y la respuesta puede crear la apariencia de sobredispersión incluso en un modelo de Poisson maravillosamente preciso.
whuber
2
@whuber Ese es un punto justo. Para un solo predictor categórico, observar la varianza y la media de los subgrupos sería suficiente para detectar la dispersión excesiva, pero para una regresión de Poisson multivariante, no lo es. En aras de la argumentación, supongamos que se ha realizado una regresión binómica negativa y de Poisson y que el binomio negativo muestra un mejor ajuste mediante la comparación del modelo anova. Eso debería indicar sobredispersión. Dado eso, ¿cómo podría modelarse la varianza / sobredispersión paramétricamente en lugar de como una constante?
Brian Diggs
1
Creo que hay un capítulo en McCullagh y Nelder, Modelos lineales generalizados, segunda edición , que cubre esto (pero mi copia está en funcionamiento) ... no habrá una probabilidad real, pero puede usar cuasi-probabilidad, y para que puede ser el título del capítulo. Aplica mínimos cuadrados iterativamente ponderados aunque no haya un modelo de probabilidad que corresponda.
Karl
El capítulo 10 de McCullagh y Nelder discute el modelado conjunto de la media y la dispersión, es decir, la parametrización de la media y la varianza. Cuasi-verosimilitud extendida es la herramienta principal, pero en algunas situaciones puede haber preocupaciones sobre ese método
invitado el

Respuestas:

9

Puede modelar el parámetro de dispersión binomial negativa en sí mismo en función de variables y parámetros utilizando el paquete gamlss en R. Proporciono un extracto de una introducción a él:

¿Por qué debería usar GAMLSS?

Si su variable de respuesta son datos de conteo (discretos), es muy probable que la distribución de Poisson no se ajuste bien. GAMLSS proporciona una variedad de distribuciones discretas (incluido el binomio negativo) que puede probar. El parámetro de dispersión también se puede modelar en función de variables explicativas.

El sitio web www.gamlss.org tiene documentación y enlaces a varios documentos sobre los enfoques utilizados en el paquete.

jbowman
fuente
Ambas respuestas son útiles y proporcionan buenas referencias. Le otorgo la recompensa a este porque (a) precedió al otro por cuatro minutos y (b) la solución gamlss es nueva para mí (estoy familiarizado con nbreg). Pero felicitaciones a @timbp por proporcionar una buena respuesta; Espero que continúes contribuyendo a nuestro sitio.
whuber
2
@whuber, también tuve dudas sobre cuál aceptar como "la" respuesta porque ambas fueron muy útiles. Fui con este porque incluía una referencia de paquete R que puedo usar; La referencia del libro en la otra respuesta ha sido una buena lectura y no debe descartarse. Gracias por ofrecer la recompensa que generó estas dos buenas respuestas.
Brian Diggs
9

Stata proporciona el comando -gnbreg-, que le permite modelar el parámetro de dispersión. Puede ver la ayuda de Stata para el comando en http://www.stata.com/help.cgi?nbreg

Stata llama a esto el modelo binomial negativo generalizado. Joseph Hilbe lo analiza en su libro "Regresión binomial negativa", sección 10.4, como "NB-H: regresión binomial negativa heterogénea".

timbp
fuente