Sé de las pruebas de normalidad, pero ¿cómo pruebo el "Poisson-ness"?
Tengo una muestra de ~ 1000 enteros no negativos, que sospecho que se tomaron de una distribución de Poisson, y me gustaría probar eso.
Sé de las pruebas de normalidad, pero ¿cómo pruebo el "Poisson-ness"?
Tengo una muestra de ~ 1000 enteros no negativos, que sospecho que se tomaron de una distribución de Poisson, y me gustaría probar eso.
En primer lugar, mi consejo es que debe abstenerse de probar una distribución de Poisson tal como se hace con los datos. Sugiero que primero debe hacer una teoría de por qué la distribución de Poisson debe ajustarse a un conjunto de datos o fenómeno particular.
Una vez que haya establecido esto, la siguiente pregunta es si la distribución es homogénea o no. Esto significa si todas las partes de los datos son manejadas por la misma distribución de Poisson o si hay una variación en esto basada en algún aspecto como el tiempo o el espacio. Una vez que se haya convencido de estos aspectos, pruebe las siguientes tres pruebas:
busque estos y los encontrará fácilmente en la red.
Aquí hay una secuencia de comandos R que pueden ser útiles. Siéntase libre de comentar o editar si detecta algún error.
fuente
Supongo que la forma más fácil es hacer una prueba de bondad de ajuste chi-cuadrado .
De hecho, aquí hay un buen applet de Java que hará exactamente eso.
fuente
Puede usar la dispersión (relación de varianza a la media) como estadística de prueba, ya que el Poisson debería dar una dispersión de 1. Aquí hay un enlace a cómo usarla como prueba modelo.
fuente
Para una distribución de Poisson, la media es igual a la varianza. Si su media muestral es muy diferente de su varianza muestral, probablemente no tenga datos de Poisson. La prueba de dispersión también mencionada aquí es una formalización de esa noción.
Si su varianza es mucho mayor que su media, como suele ser el caso, puede intentar una distribución binomial negativa a continuación.
fuente
Puede dibujar una sola figura en la que las frecuencias observadas y esperadas se dibujan una al lado de la otra. Si las distribuciones son muy diferentes y también tiene una relación media-varianza mayor que uno, entonces un buen candidato es el binomio negativo. Lea la sección Distribuciones de frecuencia de
The R Book
. Se trata de un problema muy similar.fuente
Creo que el punto principal es el que plantea sidmaestro ... ¿la configuración experimental o el mecanismo de generación de datos respaldan la premisa de que los datos podrían surgir de una distribución de Poisson?
No soy un gran admirador de las pruebas de suposiciones de distribución, ya que esas pruebas generalmente no son muy útiles. Lo que me parece más útil es hacer suposiciones de distribución o modelo que sean flexibles y razonablemente robustas a las desviaciones del modelo, generalmente con fines de inferencia. En mi experiencia, no es tan común ver media = varianza, por lo que a menudo el modelo binomial negativo parece más apropiado e incluye el Poisson como un caso especial.
Otro punto que es importante para las pruebas de distribución, si eso es lo que quiere hacer, es asegurarse de que no haya estratos involucrados que hagan que su distribución observada sea una mezcla de otras distribuciones. Las distribuciones individuales específicas del estrato pueden aparecer como Poisson, pero la mezcla observada puede no serlo. Una situación análoga a partir de la regresión solo supone que la distribución condicional de Y | X se distribuye normalmente, y no realmente la distribución de Y en sí.
fuente
Otra forma de probar esto es con un gráfico cuantil cuantil. En R, hay qqplot. Esto traza directamente sus valores contra una distribución normal con media y sd similares
fuente