¿Cuándo usar GLM binomiales Poisson vs. geométricos vs. negativos para los datos de conteo?

21

Estoy tratando de diseñar por mí mismo cuando es apropiado usar qué tipo de regresión (geométrica, Poisson, binomial negativa) con datos de recuento, dentro del marco GLM (solo 3 de las 8 distribuciones GLM se usan para datos de recuento, aunque la mayoría de lo que He leído centros alrededor de las distribuciones binomial negativa y de Poisson).

¿Cuándo usar GLM binomiales Poisson vs. geométricos vs. negativos para los datos de conteo?


Hasta ahora tengo la siguiente lógica: ¿Es contar datos? En caso afirmativo, ¿son diferentes la media y la varianza? En caso afirmativo, regresión binomial negativa. Si no, regresión de Poisson. ¿Hay cero inflación? En caso afirmativo, binomio negativo inflado cero o binomio negativo inflado cero.

Pregunta 1 Parece que no hay una indicación clara de qué usar cuándo. ¿Hay algo para informar esa decisión? Por lo que entiendo, una vez que cambias a ZIP, la varianza media es igual de supuesta y se relaja, por lo que es bastante similar a NB nuevamente.

Pregunta 2 ¿Dónde encaja la familia geométrica en esto o qué tipo de preguntas debo hacer a los datos al decidir si usar una familia geométrica en mi regresión?

Pregunta 3 Veo personas intercambiando las distribuciones binomial negativa y de Poisson todo el tiempo pero no geométricas, así que supongo que hay algo claramente diferente sobre cuándo usarlo. Si es así, ¿qué es?

PD: He hecho un diagrama (probablemente simplificado, de los comentarios) ( editable ) de mi comprensión actual si la gente quisiera comentarlo / modificarlo para su discusión. Datos de recuento: Árbol de decisiones GLM

timothy.s.lau
fuente
Solo estoy familiarizado con la programación R, pero espero que esta ayuda ... stats.stackexchange.com/questions/60643/…
RYO ENG Lian Hu
@RYOENG, lo vi y expuse la diferencia descrita en mi pregunta con el árbol lógico. Estoy especialmente interesado en un dist menos discutido, a saber, el dist geométrico.
timothy.s.lau
(ACTUALIZACIÓN) La respuesta de @Nick Cox aquí: stats.stackexchange.com/questions/67547/when-to-use-gamma-glms parece capitular el sentimiento que he visto hasta ahora buscando "Es difícil precisar bastante cuando usarlo más allá de una respuesta vacía de cuando funciona mejor "
timothy.s.lau
@Glen_b buena captura, actualicé la lógica.
timothy.s.lau
Probablemente también estés seguro eliminando el párrafo sobre ser criticado por las modificaciones.
Glen_b: reinstala a Monica el

Respuestas:

12

Tanto la distribución de Poisson como la distribución geométrica son casos especiales de la distribución binomial negativa (NB). Una notación común es que la varianza del NB es donde es la expectativa y es responsable de la cantidad de (sobre) dispersión. A veces también se usa . El modelo de Poisson tiene , es decir, equidispersión, y el geométrico tiene . μ θ α = 1 / θ θ = θ = 1μ+1/ /θμ2μθα=1/ /θθ=θ=1

Entonces, en caso de duda entre estos tres modelos, recomendaría estimar el NB: el peor de los casos es que se pierde un poco de eficiencia al estimar un parámetro demasiado. Pero, por supuesto, también hay pruebas formales para evaluar si un cierto valor para (por ejemplo, 1 o ) es suficiente. O puede usar criterios de información, etc.θ

Por supuesto, también hay muchas otras distribuciones de datos de recuento de parámetros únicos o múltiples (incluido el Poisson compuesto que mencionó) que a veces pueden o no conducir a ajustes significativamente mejores.

En cuanto a los ceros en exceso: las dos estrategias estándar son usar una distribución de datos de conteo inflada a cero o un modelo de obstáculo que consiste en un modelo binario para cero o mayor más un modelo de datos de conteo truncado a cero. Como mencionas, el exceso de ceros y la sobredispersión pueden confundirse, pero a menudo permanece una sobredispersión considerable incluso después de ajustar el modelo para el exceso de ceros. Nuevamente, en caso de duda, recomendaría utilizar un modelo de inflación cero o obstáculo basado en el NB con la misma lógica que la anterior.

Descargo de responsabilidad: esta es una descripción muy breve y simple. Al aplicar los modelos en la práctica, recomendaría consultar un libro de texto sobre el tema. Personalmente, me gustan los libros de datos de conteo de Winkelmann y los de Cameron y Trivedi. Pero también hay otros buenos. Para una discusión basada en R, es posible que también le guste nuestro artículo en JSS ( http://www.jstatsoft.org/v27/i08/ ).

Achim Zeileis
fuente
44
Es un tipo particular de sobredispersión (porque ). Sin embargo, en cierto sentido, la cantidad de sobredispersión es fija, mientras que en el NB la cantidad de sobredispersión se estima a través de un parámetro adicional. μ+μ2>μ
Achim Zeileis
3
No, como escribí: si no tuviera ningún otro conocimiento previo, comenzaría con el NB (no el Poisson). Y solo consideraría el caso especial de la distribución geométrica si esta tiene una interpretación atractiva para mi aplicación. La mayoría de las veces, el objetivo principal es la inferencia sobre la media todos modos, por lo que probar el geométrico contra el NB no es muy interesante. μ
Achim Zeileis
3
Como habrás podido deducir de mis comentarios anteriores: no soy fanático de esos diagramas de flujo tan simplificadores. Para elegir un buen modelo, uno necesita comprender las conexiones entre los modelos y su relación con la aplicación práctica. Si te interesa o no la geometría depende del caso de aplicación que tengas. Del mismo modo, para inflación cero frente a obstáculo (que ha omitido de su gráfico). Finalmente, el orden de las preguntas no es necesariamente el mismo para todas las aplicaciones, etc.
Achim Zeileis
2
Entiendo que mi boceto parece un poco simplificado. Pero para los estudiantes de ciencias no es raro comenzar con esquemas más bien simplistas, si has tomado clases de física estás familiarizado con la frecuencia con la que cambian y rompen las "reglas" que has aprendido anteriormente, que son la base de un futuro más Comprensión experta y matizada. Así que, por el bien del aprendizaje, soy un estudiante graduado, simplemente estaba tratando de obtener una comprensión más "correcta" de los conceptos básicos que puedo construir más adelante, por ejemplo, obstáculos, etc. Gracias por las referencias, por cierto, investigaré los libros de texto. mencionaste tan bien como tu trabajo.
timothy.s.lau
1
Creo que cuasi-NB no agregaría mucho a cuasi-Poisson. Tiene la misma función media y también renuncia a la probabilidad (es decir, solo tiene un modelo medio pero no un modelo probabilístico). Entonces, la única diferencia es que en el caso de NB2, tiene una función de varianza ligeramente diferente, mientras que NB1 incluso tendría la misma función de varianza. Por lo tanto, mi recomendación sería simplemente usar cuasi-Poisson para un modelo de regresión medio, y comenzar con NB si quiero tener un modelo de regresión probabilístico. Iniciar sesión(μyo)=Xyoβ
Achim Zeileis