Tengo un conjunto de datos que contiene la cantidad de acciones realizadas por individuos en el transcurso de 7 días. La acción específica no debería ser relevante para esta pregunta. Aquí hay algunas estadísticas descriptivas para el conjunto de datos:
Aquí hay un histograma de los datos:
A juzgar por la fuente de los datos, pensé que encajaría en una distribución de Poisson. Sin embargo, la varianza media ≠, y el histograma está fuertemente ponderado a la izquierda. Además, ejecuté la goodfit
prueba en R y obtuve:
> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2 df P(> X^2) <br>
Pearson 2.937599e+248 771 0
El método de máxima verosimilitud también arrojó un valor p = 0. Suponiendo que la hipótesis nula es: los datos coinciden con una distribución de Poisson (la documentación no especifica esto), entonces la goodfit
prueba dice que debemos rechazar la hipótesis nula, por lo tanto, los datos no coincidir con una distribución de Poisson.
¿Es correcto ese análisis? Si es así, ¿qué distribución cree que se ajustará a estos datos?
Mi objetivo final es comparar el número medio de acciones entre 2 muestras para ver si las medias son diferentes; ¿es necesario verificar la distribución? Entiendo que las pruebas típicas (pruebas z-, t-, ) no funcionan para las distribuciones de Poisson. ¿Qué prueba debo usar si los datos están efectivamente distribuidos por Poisson?
Respuestas:
Si la varianza es mayor que la media, esto se llama dispersión excesiva. Un modelo natural para esto es la distribución binomial negativa. Esto también puede verse como una distribución de Poisson donde el parámetro lambda sigue una distribución Gamma. Un primer y fácil paso podría ser ajustar una distribución binomial negativa.
fuente
Si sus datos de recuento sin procesar no se parecen a una distribución de Poisson, entonces le falta algo. Quizás la cantidad de acciones depende de la temperatura, por lo que en los días calurosos la gente hace menos cosas. Luego, la variación de temperatura durante su período de estudio afectaría la distribución y la haría no Poisson.
Sin embargo, el número de acciones cada día aún podría ser Poisson con una media dependiente de la temperatura. Si tiene la temperatura todos los días, puede hacer un GLM, regresando el número de acciones como una variable de Poisson, dependiendo de la temperatura. Si eso encaja bien, trabajo hecho.
Si no tiene posibles variables explicativas, todo lo que puede decir es "algo más está sucediendo: el número de acciones no proviene de muestras de Poisson independientes", es decir, rechace su hipótesis nula.
Existen pruebas sin distribución que pueden comparar observaciones emparejadas mediante el uso de clasificaciones, etc. Por lo general, realizan un gran número de permutaciones y calculan una estadística de prueba ...
fuente
Una cosa más: también debe investigar los valores atípicos en los datos de conteo. Tienes un recuento en 400-ish y luego nada hasta 800-ish. Es probable que no se ajuste a ninguno de los modelos comunes.
fuente
Parece que está contando el número de eventos cero; si es así, entonces podría considerar un modelo ZIP (o obstáculo): consulte Modelos de regresión para datos de conteo en R de Zeileis et al. Para obtener una descripción general.
En resumen, estos métodos modelan los recuentos cero por separado del resto de los recuentos que podrían ser útiles en su caso.
Consulte el
pscl
paquete y las funcioneszeroinfl()
yhurdle()
.fuente
Sospecho que su histograma está binning engañosamente. Si tiene un poco más de 300 observaciones distribuidas uniformemente en todo el rango 0-50, aproximadamente 320 distribuidas uniformemente en el rango 50-100 y 50 o más por encima de 100, su media debería ser sustancialmente mayor que 18.2.
Si los datos en el rango 0-50 no se distribuyen uniformemente, sino que se concentran cerca de cero, entonces es sorprendente ver más en el rango 50-100 que en el rango 0-50.
Quizás tengas una mezcla de distribuciones. Dudo que alguien pueda hacer mucho con esto sin las 696 observaciones reales y especialmente sin saber más sobre el contexto. ¿Cada una de las 696 observaciones es individual y la respuesta es la cantidad de acciones que tomó cada individuo? Si es así, ¿hay diferentes tipos de personas en los datos?
fuente