¿En qué se diferencia la distribución de Poisson de la distribución normal?

He generado un vector que tiene una distribución de Poisson, de la siguiente manera:

x = rpois(1000,10)

Si hago un histograma usando hist(x), la distribución se parece a la distribución normal familiar en forma de campana. Sin embargo, una prueba de Kolmogorov-Smirnoff usando ks.test(x, 'pnorm',10,3)dice que la distribución es significativamente diferente a una distribución normal, debido a un pvalor muy pequeño .

Entonces mi pregunta es: ¿en qué se diferencia la distribución de Poisson de una distribución normal, cuando el histograma se parece tanto a una distribución normal?

distributions histogram normal-distribution poisson-distribution luciano
fuente

Además (como complemento de la respuesta de David): lea esto ( stats.stackexchange.com/a/2498/603 ) y configure su tamaño de muestra en 100 y vea la diferencia que hace.

user603

Respuestas:

Una distribución de Poisson es discreta, mientras que una distribución normal es continua, y una variable aleatoria de Poisson siempre es> = 0. Por lo tanto, una prueba de Kolgomorov-Smirnov a menudo podrá distinguir la diferencia.
Cuando la media de una distribución de Poisson es grande, se vuelve similar a una distribución normal. Sin embargo, rpois(1000, 10)ni siquiera parece que similar a una distribución normal (no llega a 0 y en la cola derecha es demasiado largo).
¿Por qué lo estás comparando en ks.test(..., 'pnorm', 10, 3)lugar de ks.test(..., 'pnorm', 10, sqrt(10))? La diferencia entre 3 y es pequeño pero en sí mismo hará una diferencia al comparar distribuciones. Incluso si la distribución fuera realmente normal, terminaría con una distribución anti-conservadora de valor p: $\sqrt{10}$
```
set.seed(1)

hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))
```

ingrese la descripción de la imagen aquí

David Robinson
fuente

A menudo la gente verá algo vagamente simétrico y asumirá que se ve "normal". Sospecho que lo que vio @Ross.

Fraijo

Tenga en cuenta que la prueba de KS generalmente asume distribuciones continuas, por lo que confiar en el valor p informado en este caso puede (también) ser algo sospechoso.

cardenal

Cierto: la ejecución hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))demuestra que una prueba que compara dos distribuciones de Poisson idénticas sería demasiado conservadora.

David Robinson

@Fraijo: de hecho. Tenemos una pregunta más general sobre este tema: si mi histograma muestra una curva en forma de campana, ¿puedo decir que mis datos se distribuyen normalmente?

Silverfish

Aquí hay una manera mucho más fácil de entenderlo:

Puede ver la distribución binomial como la "madre" de la mayoría de las distribuciones. La distribución normal es solo una aproximación de la distribución binomial cuando n se vuelve lo suficientemente grande. De hecho, Abraham de Moivre descubrió esencialmente la distribución normal al intentar aproximar la distribución binomial porque rápidamente se va de la mano para calcular la distribución binomial a medida que n crece, especialmente cuando no tiene computadoras ( referencia ).

La distribución de Poisson también es solo otra aproximación de la distribución binomial, pero es mucho mejor que la distribución normal cuando n es grande y p es pequeña, o más precisamente cuando el promedio es aproximadamente igual a la varianza (recuerde que para la distribución binomial, promedio = np y var = np (1-p)) ( referencia ). ¿Por qué es tan importante esta situación particular? Aparentemente aparece mucho en el mundo real y es por eso que tenemos esta aproximación "especial". El siguiente ejemplo ilustra escenarios donde la aproximación de Poisson funciona realmente bien.

Ejemplo

Tenemos un centro de datos de 100,000 computadoras. La probabilidad de que cualquier computadora falle hoy es 0.001. Entonces, en promedio np = 100 computadoras fallan en el centro de datos. ¿Cuál es la probabilidad de que solo 50 computadoras fallen hoy?

Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7

De hecho, la calidad de aproximación para la distribución normal se va por el desagüe a medida que avanzamos en la cola de la distribución, pero Poisson continúa resistiendo muy bien. En el ejemplo anterior, consideremos ¿cuál es la probabilidad de que solo 5 computadoras fallen hoy?

Binomial: 2.96E-36 
Poisson: 3.1E-36
Normal: 9.6E-22

Con suerte, esto le brinda una mejor comprensión intuitiva de estas 3 distribuciones.

Shital Shah
fuente

¡Qué respuesta tan increíble y genial! Muchas gracias. :)

Bora M. Alper

$\lambda$ $n$ $p_n$ $p_n = \lambda / n$

Un desarrollo bastante largo se puede encontrar en este blog .

$X_n \sim \mathrm{Binomial}(n,\lambda/n)$ $k$

\begin{aligned} PAGS (X_{norte} = k) & = \frac{norte!}{k! (norte - k)!} {(\frac{λ}{norte})}^{k} {(1 - \frac{λ}{norte})}^{norte - k} \\ = \underset{\to 1}{\underset{⏟}{\frac{norte! {norte}^{- k}}{(norte - k)!}}} \frac{λ^{k}}{k!} \underset{\to {mi}^{- λ}}{\underset{⏟}{(1 - λ / / norte)^{norte}}} \cdot \underset{\to 1}{\underset{⏟}{(1 - λ / / norte)^{- k}}} . \end{aligned}

$\begin{align} \mathbb P(X_n = k) &= \frac{n!}{k!(n-k)!} \left(\frac{\lambda}{n}\right)^k \left(1-\frac{\lambda}{n}\right)^{n-k} \\ &= \underbrace{\frac{n! n^{-k}}{(n-k)!}}_{\to 1} \frac{\lambda^k}{k!}\underbrace{(1-\lambda/n)^n}_{\to e^{-\lambda}} \cdot \underbrace{(1-\lambda/n)^{-k}}_{\to 1} \>. \end{align}$

$n \to \infty$ $k$

PAGS (X_{norte} = k) \to \frac{{mi}^{- λ} λ^{k}}{k!},

$\mathbb P(X_n = k) \to \frac{e^{-\lambda} \lambda^k}{k!} \,,$

n \to \infty

$n \to \infty$

(1 - λ / n)^{n} \to e^{- λ}

$(1-\lambda/n)^n \to e^{-\lambda}$

$n$ $p$ $\approxeq^d \mathcal N(np, np(1-p))$ $n \rightarrow \infty$ $p$ $p_n = \lambda / n \rightarrow 0$ $\lambda$ $n$

muratoa
fuente

(+1) Bienvenido al sitio. He hecho algunas ediciones; por favor verifique que no haya introducido ningún error en el proceso. No estaba muy seguro de qué hacer con la última frase de la última oración. Algunas aclaraciones adicionales allí podrían ser útiles.

cardenal

n p_{n} \approx λ

$n p_n \approx \lambda$

p

$p$

λ

$\lambda$

n

$n$

λ

$\lambda$

p_{n}

$p_n$

1 / 2

$1/2$

Gracias. Ahora veo lo que intentabas decir. En general, estoy de acuerdo, con la advertencia de que se debe tener cuidado con la relación entre los parámetros, que se consideran fijos y que varían con los demás. :)

cardenal

λ

$\lambda$