Estoy tratando de diseñar por mí mismo cuando es apropiado usar qué tipo de regresión (geométrica, Poisson, binomial negativa) con datos de recuento, dentro del marco GLM (solo 3 de las 8 distribuciones GLM se usan para datos de recuento, aunque la mayoría de lo que He leído centros alrededor de las distribuciones binomial negativa y de Poisson).
¿Cuándo usar GLM binomiales Poisson vs. geométricos vs. negativos para los datos de conteo?
Hasta ahora tengo la siguiente lógica: ¿Es contar datos? En caso afirmativo, ¿son diferentes la media y la varianza? En caso afirmativo, regresión binomial negativa. Si no, regresión de Poisson. ¿Hay cero inflación? En caso afirmativo, binomio negativo inflado cero o binomio negativo inflado cero.
Pregunta 1 Parece que no hay una indicación clara de qué usar cuándo. ¿Hay algo para informar esa decisión? Por lo que entiendo, una vez que cambias a ZIP, la varianza media es igual de supuesta y se relaja, por lo que es bastante similar a NB nuevamente.
Pregunta 2 ¿Dónde encaja la familia geométrica en esto o qué tipo de preguntas debo hacer a los datos al decidir si usar una familia geométrica en mi regresión?
Pregunta 3 Veo personas intercambiando las distribuciones binomial negativa y de Poisson todo el tiempo pero no geométricas, así que supongo que hay algo claramente diferente sobre cuándo usarlo. Si es así, ¿qué es?
PD: He hecho un diagrama (probablemente simplificado, de los comentarios) ( editable ) de mi comprensión actual si la gente quisiera comentarlo / modificarlo para su discusión.
Respuestas:
Tanto la distribución de Poisson como la distribución geométrica son casos especiales de la distribución binomial negativa (NB). Una notación común es que la varianza del NB es donde es la expectativa y es responsable de la cantidad de (sobre) dispersión. A veces también se usa . El modelo de Poisson tiene , es decir, equidispersión, y el geométrico tiene . μ θ α = 1 / θ θ = ∞ θ = 1μ + 1 / θ ⋅ μ2 μ θ α = 1 / θ θ = ∞ θ = 1
Entonces, en caso de duda entre estos tres modelos, recomendaría estimar el NB: el peor de los casos es que se pierde un poco de eficiencia al estimar un parámetro demasiado. Pero, por supuesto, también hay pruebas formales para evaluar si un cierto valor para (por ejemplo, 1 o ) es suficiente. O puede usar criterios de información, etc.∞θ ∞
Por supuesto, también hay muchas otras distribuciones de datos de recuento de parámetros únicos o múltiples (incluido el Poisson compuesto que mencionó) que a veces pueden o no conducir a ajustes significativamente mejores.
En cuanto a los ceros en exceso: las dos estrategias estándar son usar una distribución de datos de conteo inflada a cero o un modelo de obstáculo que consiste en un modelo binario para cero o mayor más un modelo de datos de conteo truncado a cero. Como mencionas, el exceso de ceros y la sobredispersión pueden confundirse, pero a menudo permanece una sobredispersión considerable incluso después de ajustar el modelo para el exceso de ceros. Nuevamente, en caso de duda, recomendaría utilizar un modelo de inflación cero o obstáculo basado en el NB con la misma lógica que la anterior.
Descargo de responsabilidad: esta es una descripción muy breve y simple. Al aplicar los modelos en la práctica, recomendaría consultar un libro de texto sobre el tema. Personalmente, me gustan los libros de datos de conteo de Winkelmann y los de Cameron y Trivedi. Pero también hay otros buenos. Para una discusión basada en R, es posible que también le guste nuestro artículo en JSS ( http://www.jstatsoft.org/v27/i08/ ).
fuente