Estrategia para decidir el modelo apropiado para los datos de conteo

16

¿Cuál es la estrategia adecuada para decidir qué modelo usar con los datos de conteo? Tengo datos de recuento que necesito modelar como modelo multinivel y me recomendaron (en este sitio) que la mejor manera de hacerlo es a través de errores o MCMCglmm. Sin embargo, todavía estoy tratando de aprender sobre las estadísticas bayesianas, y pensé que primero debería tratar de ajustar mis datos como modelos lineales generalizados e ignorar la estructura anidada de los datos (solo para poder tener una idea vaga de qué esperar).

Alrededor del 70% de los datos son 0 y la relación de varianza a la media es 33. Por lo tanto, los datos están bastante dispersos.

Después de probar varias opciones diferentes (incluido el modelo de Poisson, binomio negativo, cuasi y cero inflado) veo muy poca consistencia en los resultados (variar de todo es significativo a nada es significativo).

¿Cómo puedo tomar una decisión informada sobre qué tipo de modelo elegir en función de la inflación 0 y la dispersión excesiva? Por ejemplo, ¿cómo puedo inferir que cuasi-poisson es más apropiado que el binomio negativo (o viceversa) y cómo puedo saber que el uso de ambos ha tratado adecuadamente (o no) con el exceso de ceros? Del mismo modo, ¿cómo evalúo que no hay más dispersión excesiva si se usa un modelo inflado a cero? ¿o cómo debo decidir entre un poisson inflado a cero y un binomio negativo inflado a cero?

poisson-distribution generalized-linear-model negative-binomial overdispersion George Michaelides
fuente

9

Siempre puede comparar modelos de conteo mirando sus predicciones (preferiblemente en un conjunto de espera). J. Scott Long discute esto gráficamente (trazando los valores predichos contra los reales). Su libro de texto aquí describe en detalle, pero también puede ver 6.4 en este documento .

Puede comparar modelos usando AIC o BIC y también hay una prueba llamada prueba de Voung con la que no estoy muy familiarizado pero que puede comparar cero inflado con modelos no anidados. Aquí hay un artículo de Sas que lo describe brevemente en la página 10 para comenzar. También está implícito en la publicación de R

B_Miner
fuente

Gracias por el consejo. Definitivamente intentaré examinar las predicciones antes de decidir sobre el modelo

George Michaelides

5

Un par de cosas para agregar a lo que dijo B_Miner:

1) Usted escribió que los modelos variaban de "todo lo significativo" a "nada significativo", pero esta no es una buena manera de comparar modelos. Mire, en cambio, los valores pronosticados (como sugirió B_miner) y los tamaños de los efectos.

2) Si el 70% de los datos son 0, no puedo imaginar que un modelo sin inflación 0 sea apropiado.

3) Incluso si no desea ir a Bayesian, puede usar GLMM en SAS (PROC GLIMMIX o NLMIXED) y en R (varios paquetes). Ignorar la naturaleza anidada puede estropear todo.

4) En general, decidir qué modelo es mejor es un arte, no una ciencia. Hay estadísticas para usar, pero son una guía para el juicio. Solo mirando lo que escribiste, diría que un modelo ZINB se ve bien

Peter Flom - Restablece a Monica
fuente

La intención es que eventualmente intente modelar esto usando Bayesian, pero estaba tratando de entender cómo puedo tomar una decisión antes de adaptar los modelos. Si existe la posibilidad de que ignorar la naturaleza anidada de los datos arruine las cosas, primero los probaré GLMM. El único paquete para R que conozco que puede hacer ZINB multinivel es glmmADMB. ¿Recomendarías algún otro paquete?

George Michaelides

4

Tengo entendido que las distribuciones infladas a cero deben usarse cuando existe una justificación para que ciertos artículos produzcan recuentos de ceros frente a cualquier otro recuento. En otras palabras, se debe usar una distribución inflada a cero si los ceros se producen por un proceso separado que el que produce los otros recuentos. Si no tiene una justificación para esto, dada la sobredispersión en su muestra, sugiero usar una distribución binomial negativa porque representa con precisión la abundancia de ceros y representa la heterogeneidad no observada al estimar libremente este parámetro. Como se mencionó anteriormente, el libro de Scott Long es una gran referencia.

Mate
fuente

Gracias por tu respuesta. De hecho, comencé a pensar si diferentes elementos podrían producir los 0 frente a cualquier otro recuento y realmente creo que hay un par de mis variables que solo explicarían los 0 frente a cualquier otro recuento. Entonces, probablemente al menos debería probar ZINB primero para ver si mis variables funcionan de la manera que esperaría que funcionen.

George Michaelides

3

absolutamente de acuerdo con lo que dijo Matt, primero hay que pensar en el fondo de los datos ... ¡No tiene ningún sentido adaptarse a los modelos ZI, cuando no hay desencadenantes generadores de cero en la población! La ventaja de los modelos NB es que pueden mostrar heterogeneidad no observada en una variable aleatoria distribuida gamma. Técnicamente: las principales razones para la sobredispersión son la heterogeneidad y la inflación cero. No creo que tu ajuste sea malo. Por cierto, para obtener la bondad de ajuste, siempre debe comparar la desviación con los grados de libertad de su modelo. Si la desviación D es mayor que n- (p + 1) (esto es df), entonces debería buscar un modelo mejor. Aunque en su mayoría no hay mejores modelos que ZINB para deshacerse de la sobredispersión.

si desea ajustar un ZINB con R, obtenga el paquete pscle intente usar el comando zeroinfl(<model>, dist=negative). Para obtener más información, consulte ?zeroinfldespués de cargar el paquete requerido.

MarkDollar
fuente

Estrategia para decidir el modelo apropiado para los datos de conteo

Respuestas: