Alternativas de sobredispersión y modelado en modelos de efectos aleatorios de Poisson con compensaciones

12

Me he encontrado con una serie de preguntas prácticas al modelar datos de conteo de investigaciones experimentales utilizando un experimento dentro del sujeto. Describo brevemente el experimento, los datos y lo que he hecho hasta ahora, seguido de mis preguntas.

Se mostraron cuatro películas diferentes a una muestra de encuestados en secuencia. Después de cada película, se realizó una entrevista de la cual contamos el número de ocurrencias de ciertas declaraciones que eran de interés para el RQ (variable de conteo pronosticado). También registramos el número máximo de ocurrencias posibles (unidades de codificación; variable de desplazamiento). Además, se midieron varias características de las películas en una escala continua, de las cuales para una tenemos una hipótesis causal de un efecto de la función de la película en el recuento de declaraciones mientras que las otras son de control (predictores).

La estrategia de modelado adoptada hasta ahora es la siguiente:

Estime un modelo de Poisson de efecto aleatorio, donde la variable causal se usa como covariable y las otras variables como covariables de control. Este modelo tiene un desplazamiento igual a 'log (unidades)' (unidades de codificación). Se toman efectos aleatorios en todos los sujetos (los recuentos específicos de películas se anidan en los sujetos). Encontramos la hipótesis causal confirmada (coeficiente sig. De variable causal). En estimación, utilizamos el paquete lme4 en R, en particular la función glmer.

Ahora tengo las siguientes preguntas. Un problema común en la regresión de Poisson es la sobredispersión. Sé que esto se puede probar utilizando una regresión binomial negativa y evaluando si su parámetro de dispersión mejora el ajuste del modelo de un modelo de Poisson simple. Sin embargo, no sé cómo hacerlo en un contexto de efectos aleatorios.

  • ¿Cómo debo hacer una prueba de dispersión excesiva en mi situación? Probé la dispersión excesiva en una simple regresión binomial negativa / de Poisson (sin efectos aleatorios) que sé cómo encajar. La prueba sugiere la presencia de sobredispersión. Sin embargo, dado que estos modelos no tienen en cuenta la agrupación, supongo que esta prueba es incorrecta. Tampoco estoy seguro sobre el papel del desplazamiento para las pruebas de sobredispersión.
  • ¿Hay algo así como un modelo de regresión de efectos aleatorios binomiales negativos y cómo debo ajustarlo en R?
  • ¿Tiene sugerencias para modelos alternativos que debería probar con los datos, es decir, teniendo en cuenta la estructura de medidas repetidas, las variables de conteo y la exposición (unidades de codificación)?
tomka
fuente
1
para empezar, echa un vistazo a la sección "sobredispersión" en glmm.wikidot.com/faq
Ben Bolker
1
Gracias, muy útil! Tal vez alguien quiere compilar una respuesta de esta y otra información.
tomka

Respuestas:

1

[0,)

En lugar de verificar la sobredispersión , que no tiene garantía de dar una respuesta útil, y, aunque uno puede examinar los índices de dispersión para cuantificar la dispersión, sugeriría más útilmente buscar la mejor distribución utilizando una opción de distribución discreta de una búsqueda de calidad adecuada. programa, por ejemplo, la rutina FindDistribution de Mathematica . Ese tipo de búsqueda hace un trabajo bastante exhaustivo al adivinar qué distribución (es) conocida (s) funcionan (s) mejor no solo para mitigar la sobredispersión, sino también para modelar de manera más útil muchas otras características de los datos, por ejemplo, la bondad de ajuste medida como una docena diferentes caminos.

Para examinar más a fondo mis distribuciones candidatas, examinaría los residuos post hoc para verificar la homocedasticidad y / o el tipo de distribución, y también consideraría si las distribuciones candidatas se pueden conciliar según corresponda a una explicación física de los datos. El peligro de este procedimiento es identificar una distribución que sea inconsistente con el mejor modelado de un conjunto de datos expandido. El peligro de no realizar un procedimiento post hoc es asignar a priori una distribución elegida arbitrariamente sin una prueba adecuada (basura en la basura). La superioridad del post hocEl enfoque es que limita los errores de ajuste, y esa es también su debilidad, es decir, puede subestimar los errores de modelado por pura casualidad cuando se intentan muchos ajustes de distribución. Esa es, entonces, la razón para examinar los residuos y considerar la fisicalidad. El enfoque de arriba hacia abajo o a priori no ofrece tal verificación post hoc de razonabilidad. Es decir, el único método para comparar la fisicalidad del modelado con diferentes distribuciones, es compararlas post hoc . Así surge la naturaleza de la teoría física, probamos una explicación hipotética de los datos con muchos experimentos antes de aceptarlos como explicaciones alternativas agotadoras.

Carl
fuente