¿Qué tan representativa es la distribución de Poisson de la distribución de eventos en la realidad?

8

Siempre me he preguntado qué tan buena es la "distribución" de Poisson para los eventos que observamos en la realidad. Casi siempre he visto que se usa para modelar la ocurrencia de eventos. (Por ejemplo, la llegada de automóviles a un estacionamiento o el número o mensajes enviados / recibidos por los hosts de computadoras en una red, etc.)

Usualmente modelamos tales eventos por la Distribución de Poisson. ¿Es la distribución solo una buena primera aproximación de cómo suceden las cosas en la realidad? Si observo el número de automóviles / día o mensajes / día en los dos ejemplos anteriores y los que se obtienen al 'elegir de la distribución', ¿en qué se diferencian? ¿Qué tan buena es una aproximación de Poisson? (¿Es una aproximación?) ¿Cuál es la 'magia' detrás de Poisson que simplemente hace las cosas bien (intuitivamente hablando :)?

Doctor
fuente
44
Hay algunos buenos puntos de partida si busca en Google la distribución de Poisson, que muestra cómo Poisson se deriva mágicamente de la distribución binomial donde n es grande y la posibilidad de un evento es pequeña. A partir de ahí, comienza a tener sentido usarlo para modelar eventos de conteo. La pregunta, supongo, es qué tan bien coinciden los eventos de conteo real con esa extensión suave de la situación binomial.
Peter Ellis

Respuestas:

5

Un ejemplo por el que puedo hablar es la venta en supermercados de bienes de consumo envasados ​​(CPG). Estos también son eventos de conteo: el supermercado puede vender 0 unidades al día, o 1, o 2 y así sucesivamente, por lo que la distribución de Poisson parece ser una buena primera opción.

Sin embargo, la distribución binomial subyacente @PeterEllis notes no se mantiene. Sí, podemos modelar el número de clientes con un binomio ... pero algunos clientes comprarán 1 unidad, algunos comprarán 2 unidades y otros cargarán sus despensas y comprarán 10 unidades.

El resultado generalmente se dispersará en exceso, por lo que una distribución binomial negativa se ajusta mucho mejor que una distribución de Poisson. (Ocasionalmente, incluso podemos ver una baja dispersión para artículos que se mueven muy rápido como la leche).

Stephan Kolassa
fuente
3
+1. Solo pensé que valía la pena mencionar que el Poisson es un caso especial del binomio negativo y que una forma de derivar el binomio negativo es como una mezcla de muchas distribuciones de Poisson diferentes con diferentes medios.
David J. Harris el
4

Si las cosas que se cuentan son independientes entre sí y la tasa es constante (o sigue un modelo como en la regresión de Poisson), entonces la distribución de Poisson generalmente se mantendrá bastante bien. Ejemplos como los automóviles que llegan a un garaje tienden a funcionar bastante bien (durante períodos de tiempo en que la tasa es bastante constante, incluyendo tanto la hora pico como la mitad de la noche para un garaje frecuentado por 9 a 5 trabajadores no funcionaría bien). La hora a la que llegue al garaje tendrá poca o influencia en la hora en que yo llegue. Sin embargo, hay excepciones en el sentido de que si 2 personas acuerdan reunirse en un momento dado, es probable que lleguen más juntas, si una sigue a la otra, entonces estarán aún más cerca. También cosas como un semáforo cercano podrían causar grupos en las llegadas que no coincidirían con un Poisson.

Si desea comparar un conjunto de datos específico para ver si el Poisson es una buena coincidencia, puede usar un rootograma colgante .

Greg Snow
fuente
1
+ para el rootograma colgante!
Mike Dunlavey
2

Como dice @Stephan, el Poisson directo puede no tener suficiente varianza para ser un buen modelo de medidas enteras no negativas reales gobernadas por una función de riesgo. Entonces, a menudo se usa el binomio negativo, que tiene un parámetro adicionalα>0determinando la sobredispersión. Me ha resultado útil parametrizar porβ=ln(α) porque como la sobredispersión α se acerca a 0, lo que significa que el binomio negativo se acerca a Poisson, el binomio negativo se vuelve difícil de calcular.

Otra forma de aumentar la dispersión es la inflación cero, que se puede aplicar a Poisson o binomio negativo. Para usar eso, en cada tiempo de medición, primero realice una prueba de Bernoulli (tire una moneda). Si la moneda es "cara", la medida es 0. De lo contrario, la medida se extrae del Poisson o distribución binomial negativa.

Mike Dunlavey
fuente
2

He visto que si los eventos resultan ser regulares, entonces el modelo de Poisson sobreestima la varianza (lógico y obvio), mientras que si los eventos se agrupan, el modelo de Poisson subestima la varianza. La distribución de Poisson se genera a partir de un proceso aleatorio de puntos de Poisson.

Mi viejo libro de texto recomienda Cox, DR y Miller, HD (1965) La teoría de los procesos estocásticos pub. Wiley para leer más. En el libro introductorio se deriva una ecuación diferencial de primer orden para dicho proceso aleatorio, que se resuelve para dar la probabilidad de no observar eventos en el tiempot, P(0,t)=eat dónde a es la tasa de eventos y t es tiempo, entonces al considerar P(1,t),P(2,t),etc. la fórmula general de Poisson se deriva por inspección. C. Estadísticas de Chatfield para la tecnología: un curso de estadística aplicada , 2ª ed. 1978, pub. Chapman y Hall: ver páginas 70-75.

Esos dos ejemplos violan el requisito de aleatoriedad subyacente. Si los eventos son más o menos aleatorios, entonces el modelo de Poisson es un modelo justo. ¿Los autos que llegan a un estacionamiento ocupado en el centro de la ciudad pueden ser un ejemplo de un conjunto de datos agrupados, quizás debido a entre 9 y 5 usuarios?

Peter Bennett
fuente