Elegir alternativas a la regresión de Poisson para datos de recuento sobredispersos

Actualmente estoy analizando datos de una serie de experimentos de comportamiento que usan la siguiente medida. Se les pide a los participantes en este experimento que seleccionen pistas que (ficticias) otras personas puedan usar para ayudar a resolver una serie de 10 anagramas. Se hace creer a los participantes que estas otras personas ganarán o perderán dinero, dependiendo de su desempeño en la resolución de los anagramas. Las pistas varían en cuán útiles son. Por ejemplo, para el anagrama NUNGRIN, un anagrama de RUNNING, tres pistas podrían ser:

Moverse rápidamente (inútil)
Lo que haces en una carrera de maratón (útil)
No siempre es un pasatiempo saludable (poco útil)

Para formar la medida, cuento la cantidad de veces (de 10) que un participante elige una pista inútil para la otra persona. En los experimentos, estoy usando una variedad de manipulaciones diferentes para afectar la utilidad de las pistas que las personas seleccionan.

Debido a que la medida de ayuda / inutilidad está bastante sesgada positivamente (una gran proporción de personas siempre elige las 10 pistas más útiles), y debido a que la medida es una variable de conteo, he estado usando un Modelo lineal generalizado de Poisson para analizar estos datos. Sin embargo, cuando leí un poco más sobre la regresión de Poisson, descubrí que debido a que la regresión de Poisson no estima independientemente la media y la varianza de una distribución, a menudo subestima la varianza en un conjunto de datos. Comencé a investigar alternativas a la regresión de Poisson, como la regresión cuasipoisson o la regresión binomial negativa. Sin embargo, admito que soy bastante nuevo en este tipo de modelos, así que vengo aquí para pedir consejo.

¿Alguien tiene alguna recomendación sobre qué modelo utilizar para este tipo de datos? ¿Hay alguna otra consideración que debería tener en cuenta (por ejemplo, ¿un modelo en particular es más poderoso que otro?) ¿Qué tipo de diagnóstico debo considerar para determinar si el modelo que selecciono maneja mis datos de manera adecuada?

poisson-distribution count-data Patrick S. Forscher
fuente

¿Qué pasa con un estimador robusto de varianza / covarianza para relajar la suposición de que la varianza es igual a la media?

boscovich

Dado que son datos de conteo y no negativos, ¿qué pasa con el quassi-poisson o un modelo de regresión binomial negativa, que explica la dispersión?

Arun

He pensado en usar un modelo binomial cuasi-poisson o negativo, pero lo que no entiendo es qué tipo de diagonales mirar para asegurarme de que estoy modelando mis datos adecuadamente. Dado que hay varias alternativas (modelos cuasi-poisson, binomial negativo y de "aumento cero"), también me pregunto si hay una buena manera de elegir entre estas alternativas. Por ejemplo, ¿es un método generalmente más poderoso que los otros?

Patrick S. Forscher

Eso depende de los datos. ¿Por qué no ajustarlos todos a sus datos (Poisson, binomio negativo, Poisson inflado a cero y binomio negativo, modelos de obstáculo para los en cuestión) y compararlos mediante say, AIC o BIC? Consulte cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf. Luego, elija el que mejor se adapte a sus datos. También puede usar modelos de cuasi-verosimilitud, pero eso es cuestión de gustos, no me gustan tanto.

Momo

Para verificar qué distribución podría ser un buen modelo para su respuesta, puede usar la función vcd :: distplot.

Momo

Respuestas:

Su resultado es la cantidad de pistas útiles de 10, que es una variable aleatoria binomial. Por lo tanto, debe analizarlo con algún tipo de regresión binomial, probablemente cuasi-binomial para permitir una sobredispersión. Tenga en cuenta que el Poisson y las distribuciones binomiales negativas nombradas engañosamente son adecuadas para datos de conteo ilimitados.

Aniko
fuente

Mencioné el binomio negativo porque es una alternativa sobredispersada al Poisson que el autor sugirió inicialmente. Como cada encuestado tiene x / 10 pistas, podría ser binomial, pero para cada una de las 10 pistas hay una probabilidad fija pi para el i-ésimo encuestado y las ocurrencias son independientes. Ese puede ser el caso.

Michael R. Chernick

El binomio beta es otra posibilidad (el binomio beta es binomial como el binomio negativo es Poisson). betabinen el aodpaquete lo haremos.

Ben Bolker,

Yo también recomendaría mirar el binomio negativo si los posibles resultados fueran infinitos como para el Poisson. Es posible que desee consultar uno de los libros de Joe Hilbe. Tiene uno en GEE y uno en regresión binomial negativa que contrasta con la regresión de Poisson. Pero como señaló Aniko, solo hay 10 pistas, por lo que cada encuestado solo puede tener 0, 1, 2, 3, ..., 10 y, por lo tanto, ni Poisson ni exponencial negativo son apropiados.

Michael R. Chernick
fuente

Buen punto de @Aniko. Otra opción es la regresión Beta. Había un documento con el título "Un exprimidor de limón mejor" que daba mucha información sobre este método.

Peter Flom - Restablece a Monica
fuente

Pero beta se usaría para modelar una proporción y no una variable de conteo en un conjunto finito de enteros.

Michael R. Chernick

Tiene usos más amplios, @MichaelChernick, vea el artículo, que es bastante bueno.

Peter Flom - Restablece a Monica

@PeterFlom Tampoco puede manejar datos en el intervalo [0,1], solo (0,1).

Colin