Estoy leyendo un artículo muy interesante de Sellers y Shmueli sobre modelos de regresión para datos de conteo. Cerca del comienzo (p. 944) citan a McCullaugh y Nelder (1989) diciendo que la regresión binomial negativa es impopular y tiene un vínculo canónico problemático. Encontré el pasaje referido y dice (p. 374 de M y N)
"Parece que se ha hecho poco uso de la distribución binomial negativa en las aplicaciones; en particular, el uso del enlace canónico es problemático porque hace que el predictor lineal sea una función de un parámetro de la función de varianza".
En la página anterior dan esa función de enlace como
y función de varianza
La distribución se da como
He encontrado que la regresión NB es bastante utilizada (y recomendada en varios libros). ¿Todos estos usos y recomendaciones son erróneos?
¿Cuáles son las consecuencias de este enlace problemático?
fuente
Respuestas:
Disputo las afirmaciones desde varios puntos de vista:
i) Si bien el enlace canónico puede ser 'problemático', no es inmediatamente obvio que alguien esté interesado en ese enlace, mientras que, por ejemplo, el enlace de registro en el Poisson a menudo es conveniente y natural, por lo que la gente a menudo interesado en eso. Aun así, en el caso de Poisson, la gente mira otras funciones de enlace.
Por lo tanto, no necesitamos restringir nuestra consideración al enlace canónico.
Un 'enlace problemático' no es en sí mismo un argumento especialmente revelador contra la regresión binomial negativa.
El enlace de registro, por ejemplo, parece ser una opción bastante razonable en algunas aplicaciones binomiales negativas, por ejemplo, en los casos en que los datos pueden ser condicionalmente Poisson pero hay una heterogeneidad en la tasa de Poisson: el enlace de registro puede ser casi tan interpretable como es en el caso de Poisson.
En comparación, uso Gamma GLM con bastante frecuencia, pero no recuerdo (aparte de los ejemplos de libros de texto) que haya usado su enlace canónico: uso el enlace de registro casi siempre, ya que es un enlace más natural para el tipo de problemas Tiendo a trabajar con
ii) "Parece que se ha hecho poco ... en aplicaciones" puede haber sido casi cierto en 1989, pero no creo que se mantenga ahora. [Incluso si se mantuviera en pie ahora, no es un argumento de que sea un modelo pobre, solo que no ha sido ampliamente utilizado, lo que podría suceder por todo tipo de razones].
La regresión binomial negativa se ha vuelto más utilizada, ya que está más ampliamente disponible, y veo que ahora se usa mucho más en aplicaciones. En R, por ejemplo, utilizo las funciones
MASS
que lo soportan (y el libro correspondiente, Venables and Ripley's, Modern Applied Statistics with S , usa regresión binomial negativa en algunas aplicaciones interesantes), y he usado algunas funcionalidades. en algunos otros paquetes incluso antes de usarlo en R.Hubiera usado más la regresión binomial negativa, incluso antes, si hubiera estado disponible para mí; Espero que lo mismo sea cierto para muchas personas, por lo que el argumento de que se usó poco parece ser más una oportunidad.
Si bien es posible evitar la regresión binomial negativa (por ejemplo, mediante el uso de modelos de Poisson sobredispersos), o una serie de situaciones en las que realmente no importa mucho lo que haces , hay varias razones por las que eso no es del todo satisfactorio.
Por ejemplo, cuando mi interés es más hacia los intervalos de predicción que las estimaciones de coeficientes, el hecho de que los coeficientes no cambien puede no ser una razón adecuada para evitar el binomio negativo.
Por supuesto, todavía hay otras opciones que modelan la dispersión (como el Conway-Maxwell-Poisson que es el tema del artículo que mencionó); Si bien esas son ciertamente opciones, a veces hay situaciones en las que estoy muy contento de que el binomio negativo sea un "ajuste" razonablemente bueno como modelo para mi problema.
¡Realmente no lo creo! Si lo fueran, ya debería haber quedado razonablemente claro. De hecho, si McCullagh y Nelder hubieran seguido sintiendo lo mismo, no tendrían falta de oportunidades ni falta de foros para aclarar los problemas restantes. Nelder falleció (2010), pero McCullagh aparentemente todavía está presente .
Si ese breve pasaje en McCullagh y Nelder es todo lo que tienen, diría que es un argumento bastante débil.
Creo que el problema es principalmente una de la función de varianza y la función de enlace está relacionada en lugar de no relacionada (como es el caso de casi todas las otras familias principales de GLM en uso popular), lo que hace la interpretación en la escala del predictor lineal menos sencillo (eso no quiere decir que sea el único problema; creo que es el problema principal para un profesional). No es gran cosa.
A modo de comparación, veo que los modelos Tweedie se usan mucho más ampliamente en los últimos tiempos, y no veo a las personas preocupadas por el hecho de que aparece tanto en la función de varianza como en el enlace canónico (ni en la mayoría de los casos, incluso preocuparse mucho sobre el enlace canónico).p
Nada de esto es quitarle nada a los modelos de Conway-Maxwell-Poisson (el tema del artículo de Sellers y Shmueli), que también se están volviendo más utilizados: ciertamente no deseo participar en un binomio negativo vs COM -Partido de tiro de Poisson.
Simplemente no lo veo como el uno o el otro, más de lo que (ahora hablando más ampliamente) adopto una postura puramente bayesiana o puramente frecuentista sobre problemas estadísticos. Usaré lo que me parezca la mejor opción en las circunstancias particulares en las que me encuentre, y cada opción tiende a tener ventajas y desventajas.
fuente