Si no es un Poisson, entonces, ¿qué distribución es esta?

11

Tengo un conjunto de datos que contiene la cantidad de acciones realizadas por individuos en el transcurso de 7 días. La acción específica no debería ser relevante para esta pregunta. Aquí hay algunas estadísticas descriptivas para el conjunto de datos:

Range0772Mean18.2Variance2791Number of observations696

Aquí hay un histograma de los datos: histograma de acción

A juzgar por la fuente de los datos, pensé que encajaría en una distribución de Poisson. Sin embargo, la varianza media ≠, y el histograma está fuertemente ponderado a la izquierda. Además, ejecuté la goodfitprueba en R y obtuve:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0  

El método de máxima verosimilitud también arrojó un valor p = 0. Suponiendo que la hipótesis nula es: los datos coinciden con una distribución de Poisson (la documentación no especifica esto), entonces la goodfitprueba dice que debemos rechazar la hipótesis nula, por lo tanto, los datos no coincidir con una distribución de Poisson.

¿Es correcto ese análisis? Si es así, ¿qué distribución cree que se ajustará a estos datos?

Mi objetivo final es comparar el número medio de acciones entre 2 muestras para ver si las medias son diferentes; ¿es necesario verificar la distribución? Entiendo que las pruebas típicas (pruebas z-, t-, ) no funcionan para las distribuciones de Poisson. ¿Qué prueba debo usar si los datos están efectivamente distribuidos por Poisson?χ2

Dcook
fuente
¿Ya has probado el binomio negativo? ¿Esto ayudó?
Ric
@ Richard, intenté binomio negativo, y eso no encajaba. Gracias por las sugerencias sin embargo. Como no podía entender qué tipo de distribución era esta, decidí ignorar la distribución e ir con una prueba no paramétrica, la prueba U de Mann-Whitney.
Dcook
Solo un comentario más para neg bin. En en.wikipedia.org/wiki/Negative_binomial_distribution puede ver la fórmula para la media y la varianza y esa . Tal ¿esto tendría algún sentido? Si no, entonces hay aún más evidencia de que neg bin no es un buen modelo aquí (si creemos en los estimadores de momento). pmean/variance=1pp
Ric
No creo que el concepto de un juicio de Bernoulli se aplique en mi caso. No hay concepto de éxito o fracaso; los sujetos ejecutan la acción de interés o no lo hacen. No intentan y fallan. Por lo tanto, la idea de una probabilidad de éxito no tiene sentido. A menos que el juicio sea una unidad de tiempo. Pero entonces no hay nada que evite que el sujeto ejecute múltiples acciones en ese período de tiempo.
Dcook
sabes mejor cómo interpretar tus datos. Solo quería recordarte que neg.bin. surge como una mezcla de Poisson (si sigue una distribución Gamma. Por lo tanto, uno puede interpretar de manera similar al caso de Poisson. Pero no quiero forzarlo :). Un comentario más: si el sujeto puede ejecutar múltiples acciones en un punto de tiempo: ¿entonces no puede ser el Compuesto Poisson / NegBin? Por favor, dígame si desea más comentarios al respecto. lmabda
Ric

Respuestas:

8

Si la varianza es mayor que la media, esto se llama dispersión excesiva. Un modelo natural para esto es la distribución binomial negativa. Esto también puede verse como una distribución de Poisson donde el parámetro lambda sigue una distribución Gamma. Un primer y fácil paso podría ser ajustar una distribución binomial negativa.

Ric
fuente
5

Si sus datos de recuento sin procesar no se parecen a una distribución de Poisson, entonces le falta algo. Quizás la cantidad de acciones depende de la temperatura, por lo que en los días calurosos la gente hace menos cosas. Luego, la variación de temperatura durante su período de estudio afectaría la distribución y la haría no Poisson.

Sin embargo, el número de acciones cada día aún podría ser Poisson con una media dependiente de la temperatura. Si tiene la temperatura todos los días, puede hacer un GLM, regresando el número de acciones como una variable de Poisson, dependiendo de la temperatura. Si eso encaja bien, trabajo hecho.

Si no tiene posibles variables explicativas, todo lo que puede decir es "algo más está sucediendo: el número de acciones no proviene de muestras de Poisson independientes", es decir, rechace su hipótesis nula.

Existen pruebas sin distribución que pueden comparar observaciones emparejadas mediante el uso de clasificaciones, etc. Por lo general, realizan un gran número de permutaciones y calculan una estadística de prueba ...

Hombre espacial
fuente
4

Una cosa más: también debe investigar los valores atípicos en los datos de conteo. Tienes un recuento en 400-ish y luego nada hasta 800-ish. Es probable que no se ajuste a ninguno de los modelos comunes.

Scortchi - Restablece a Monica
fuente
1

Parece que está contando el número de eventos cero; si es así, entonces podría considerar un modelo ZIP (o obstáculo): consulte Modelos de regresión para datos de conteo en R de Zeileis et al. Para obtener una descripción general.

En resumen, estos métodos modelan los recuentos cero por separado del resto de los recuentos que podrían ser útiles en su caso.

Consulte el psclpaquete y las funciones zeroinfl()y hurdle().

Sean
fuente
1

Sospecho que su histograma está binning engañosamente. Si tiene un poco más de 300 observaciones distribuidas uniformemente en todo el rango 0-50, aproximadamente 320 distribuidas uniformemente en el rango 50-100 y 50 o más por encima de 100, su media debería ser sustancialmente mayor que 18.2.

Si los datos en el rango 0-50 no se distribuyen uniformemente, sino que se concentran cerca de cero, entonces es sorprendente ver más en el rango 50-100 que en el rango 0-50.

Quizás tengas una mezcla de distribuciones. Dudo que alguien pueda hacer mucho con esto sin las 696 observaciones reales y especialmente sin saber más sobre el contexto. ¿Cada una de las 696 observaciones es individual y la respuesta es la cantidad de acciones que tomó cada individuo? Si es así, ¿hay diferentes tipos de personas en los datos?

Emil Friedman
fuente