¿Cuál es la estrategia adecuada para decidir qué modelo usar con los datos de conteo? Tengo datos de recuento que necesito modelar como modelo multinivel y me recomendaron (en este sitio) que la mejor manera de hacerlo es a través de errores o MCMCglmm. Sin embargo, todavía estoy tratando de aprender sobre las estadísticas bayesianas, y pensé que primero debería tratar de ajustar mis datos como modelos lineales generalizados e ignorar la estructura anidada de los datos (solo para poder tener una idea vaga de qué esperar).
Alrededor del 70% de los datos son 0 y la relación de varianza a la media es 33. Por lo tanto, los datos están bastante dispersos.
Después de probar varias opciones diferentes (incluido el modelo de Poisson, binomio negativo, cuasi y cero inflado) veo muy poca consistencia en los resultados (variar de todo es significativo a nada es significativo).
¿Cómo puedo tomar una decisión informada sobre qué tipo de modelo elegir en función de la inflación 0 y la dispersión excesiva? Por ejemplo, ¿cómo puedo inferir que cuasi-poisson es más apropiado que el binomio negativo (o viceversa) y cómo puedo saber que el uso de ambos ha tratado adecuadamente (o no) con el exceso de ceros? Del mismo modo, ¿cómo evalúo que no hay más dispersión excesiva si se usa un modelo inflado a cero? ¿o cómo debo decidir entre un poisson inflado a cero y un binomio negativo inflado a cero?
fuente
Un par de cosas para agregar a lo que dijo B_Miner:
1) Usted escribió que los modelos variaban de "todo lo significativo" a "nada significativo", pero esta no es una buena manera de comparar modelos. Mire, en cambio, los valores pronosticados (como sugirió B_miner) y los tamaños de los efectos.
2) Si el 70% de los datos son 0, no puedo imaginar que un modelo sin inflación 0 sea apropiado.
3) Incluso si no desea ir a Bayesian, puede usar GLMM en SAS (PROC GLIMMIX o NLMIXED) y en R (varios paquetes). Ignorar la naturaleza anidada puede estropear todo.
4) En general, decidir qué modelo es mejor es un arte, no una ciencia. Hay estadísticas para usar, pero son una guía para el juicio. Solo mirando lo que escribiste, diría que un modelo ZINB se ve bien
fuente
Tengo entendido que las distribuciones infladas a cero deben usarse cuando existe una justificación para que ciertos artículos produzcan recuentos de ceros frente a cualquier otro recuento. En otras palabras, se debe usar una distribución inflada a cero si los ceros se producen por un proceso separado que el que produce los otros recuentos. Si no tiene una justificación para esto, dada la sobredispersión en su muestra, sugiero usar una distribución binomial negativa porque representa con precisión la abundancia de ceros y representa la heterogeneidad no observada al estimar libremente este parámetro. Como se mencionó anteriormente, el libro de Scott Long es una gran referencia.
fuente
absolutamente de acuerdo con lo que dijo Matt, primero hay que pensar en el fondo de los datos ... ¡No tiene ningún sentido adaptarse a los modelos ZI, cuando no hay desencadenantes generadores de cero en la población! La ventaja de los modelos NB es que pueden mostrar heterogeneidad no observada en una variable aleatoria distribuida gamma. Técnicamente: las principales razones para la sobredispersión son la heterogeneidad y la inflación cero. No creo que tu ajuste sea malo. Por cierto, para obtener la bondad de ajuste, siempre debe comparar la desviación con los grados de libertad de su modelo. Si la desviación D es mayor que n- (p + 1) (esto es df), entonces debería buscar un modelo mejor. Aunque en su mayoría no hay mejores modelos que ZINB para deshacerse de la sobredispersión.
si desea ajustar un ZINB con R, obtenga el paquete
pscl
e intente usar el comandozeroinfl(<model>, dist=negative)
. Para obtener más información, consulte?zeroinfl
después de cargar el paquete requerido.fuente