En "Análisis de datos" por DS Sivia, hay una derivación de la distribución de Poisson, de la distribución binomial.
Argumentan que la distribución de Poisson es el caso limitante de la distribución binomial cuando , donde es el número de ensayos.
Pregunta 1: ¿Cómo se puede entender intuitivamente ese argumento?
Pregunta 2: ¿Por qué el límite grande de igual a , Donde es el número de éxitos en ensayos? (Este paso se usa en la derivación).
binomial
poisson-distribution
combinatorics
intuition
probability-calculus
Ytsen de Boer
fuente
fuente
Respuestas:
Intentaré una explicación simple e intuitiva. Registre que para una variable aleatoria binomial tenemos la expectativa de n p y la varianza es n p ( 1 - p ) . Ahora piense que X registra el número de eventos en un número muy grande n de ensayos, cada uno con una probabilidad muy pequeña pX∼Bin(n,p) np np(1−p) X n p , de modo que estamos muy cerca de (realmente ≈ ). Entonces tenemos n p = λ1−p=1 ≈ np=λ digamos, y , entonces la media y la varianza son iguales a λ . ¡Entonces recuerde que para una variable aleatoria distribuida de Poisson, siempre tenemos media y varianza igual! Ese es al menos un argumento de plausibilidad para la aproximación de Poisson, pero no una prueba.np(1−p)≈np1=λ λ
Luego mírelo desde otro punto de vista, el proceso del punto de Poisson https://en.wikipedia.org/wiki/Poisson_point_process en la línea real. Esta es la distribución de puntos aleatorios en la línea que obtenemos si los puntos aleatorios ocurren de acuerdo con las reglas:
Entonces, la distribución del número de puntos en un intervalo dado (no necesariamente corto) es Poisson (con el parámetro proporcional a la longitud). Ahora, si dividimos este intervalo en muchos subintervalos igualmente cortos ( n ), la probabilidad de dos o más puntos en un subintervalo dado es esencialmente cero, por lo que ese número tendrá, en una muy buena aproximación, una distribución de bernolli, es decir, Bin ( 1 , p ) , entonces la suma de todo esto será Bin ( n , p ) , entonces una buena aproximación de la distribución de Poisson de la cantidad de puntos en ese intervalo (largo).λ n Bin(1,p) Bin(n,p)
Edición de @Ytsen de Boer (OP): la pregunta número 2 es respondida satisfactoriamente por @ Łukasz Grad.
fuente
Permítanme proporcionar una heurística alternativa. Voy a mostrar cómo aproximar el proceso de Poisson como un binomio (y argumentar que la aproximación es mejor para muchos ensayos con baja probabilidad). Por lo tanto, la distribución binomial debe tender a la distribución de Poisson.
Digamos que los eventos están sucediendo con una velocidad constante en el tiempo. Queremos saber la distribución de cuántos eventos ocurrieron en un día, sabiendo que el número esperado de eventos esλ .
Bueno, el número esperado de eventos por hora esλ/24 . Supongamos que esto significa que la probabilidad de que ocurra un evento en una hora determinada es λ/24 . [no está del todo bien, pero es una aproximación decente si λ/24≪1 básicamente si podemos suponer que no ocurren múltiples eventos en la misma hora]. Luego podemos aproximar la distribución del número de eventos como un binomio con M=24 ensayos, cada uno con probabilidad de éxito λ/24 .
Mejoramos la aproximación cambiando nuestro intervalo a minutos. Entonces esp=λ/1440 con M=1440 ensayos. Si λ está cerca, digamos 10, entonces podemos estar bastante seguros de que ningún minuto tuvo dos eventos.
Por supuesto, mejora si cambiamos a segundos. Ahora estamos viendo eventosM=86400 , cada uno con la pequeña probabilidad λ/86400 .
No importa cuán grande sea suλ , eventualmente puedo elegir un Δt suficientemente pequeño como para que sea muy probable que no ocurran dos eventos en el mismo intervalo. Entonces la distribución binomial correspondiente a ese Δt será una excelente coincidencia con la verdadera distribución de Poisson.
La única razón por la que no son exactamente iguales es que hay una probabilidad distinta de cero de que ocurran dos eventos en el mismo intervalo de tiempo. Pero dado que solo hay alrededor de eventosλ y se distribuyen en un número de contenedores mucho mayor que λ , es poco probable que dos de ellos se encuentren en el mismo contenedor.
O en otras palabras, la distribución binomial tiende a la distribución de Poisson comoM→∞ si la probabilidad de éxito es p=λ/M .
fuente
Pregunta 1
Recordemos la definición de la distribución binomial:
Compare esto con la definición de la distribución de Poisson:
La diferencia sustancial entre los 2 es que el binomio está en ensayos, Poisson está en un período de tiempo tn t . ¿Cómo puede ocurrir el límite intuitivamente?
Digamos que tienes que seguir ejecutando pruebas de Bernoulli por toda la eternidad. Además, ejecutas por minuto. Por minuto cuentas cada éxito. Entonces, durante toda la eternidad, ejecuta un proceso B i n ( p , 30 ) cada minuto. Durante 24 horas, tiene un B i n ( p , 43200 ) .n=30 Bin(p,30) Bin(p,43200)
A medida que se cansa, se le pregunta "¿cuántos éxitos ocurrieron entre las 18:00 y las 19:00?". Su respuesta puede ser , es decir, proporciona los éxitos promedio en una hora. Eso me parece mucho el parámetro de Poisson λ .30∗60∗p λ
fuente
Pregunta 2)
Entonces tomar el límite para N fijoN
fuente
El problema es que su caracterización del Poisson como un caso limitante de la distribución binomial no es del todo correcto como se indicó .
El Poisson es un caso limitante del binomio cuando: La segunda parte es importante. Si p permanece fijo, la primera condición implica que la tasa también aumentará sin límite.
Lo que la distribución de Poisson supone es que los eventos son raros . Lo que queremos decir con "raro" no es que la tasa de eventos sea pequeña, de hecho, un proceso de Poisson puede tener una intensidad muy alta , sino que la probabilidad de que ocurra un evento en cualquier instante [ t , t + d t ) es muy pequeña. Esto está en contraste con un modelo binomial donde la probabilidad pλ [t,t+dt) p de un evento (por ejemplo, "éxito") se fija para cualquier ensayo dado.
Para ilustrar, supongamos que modelamos una serie de ensayos de Bernoulli independientes, cada uno con probabilidad de éxito p , y observamos qué sucede con la distribución del número de éxitos X como M → ∞ . Para cualquier N tan grande como queramos, y no importa cuán pequeño sea p , el número esperado de éxitos E [ X ] = M p > N para M > N / pM p X M→∞ N p E[X]=Mp>N M>N/p . Dicho de otra manera, no importa cuán improbable sea la probabilidad de éxito, eventualmente puede lograr un número promedio de éxitos tan grande como desee si realiza suficientes pruebas. Entonces, (o simplemente diciendo " M es grande") no es suficiente para justificar un modelo de Poisson para XM→∞ M X .
No es difícil establecer algebraicamente
fuente
I can only attempt a part answer and it is about the intuition for Question 2, not a rigorous proof.
The binomial coefficient gives you the number of samples of sizeN , from M , without replacement and without order.
Here thoughM becomes so large that you may approximate the scenario as sampling with replacement in which case you get
MN ordered samples. If you don't care about the order of the N objects chosen this reduces to MN/N! because those N objects
can be ordered in N! ways.
fuente
I think this is the best example that intuitively explains how binomial distribution converges to normal with large number of balls. Here, each ball has equal probability of falling on either side of the peg in each layer and all the balls have to face same number of pegs. It can be easily seen that as the number of balls goes very high the distribution of balls in different sections will be like normal distribution.
My answer to your question 2 is same as the answer given by Lukasz.
fuente