He generado un vector que tiene una distribución de Poisson, de la siguiente manera:
x = rpois(1000,10)
Si hago un histograma usando hist(x)
, la distribución se parece a la distribución normal familiar en forma de campana. Sin embargo, una prueba de Kolmogorov-Smirnoff usando ks.test(x, 'pnorm',10,3)
dice que la distribución es significativamente diferente a una distribución normal, debido a un p
valor muy pequeño .
Entonces mi pregunta es: ¿en qué se diferencia la distribución de Poisson de una distribución normal, cuando el histograma se parece tanto a una distribución normal?
Respuestas:
Una distribución de Poisson es discreta, mientras que una distribución normal es continua, y una variable aleatoria de Poisson siempre es> = 0. Por lo tanto, una prueba de Kolgomorov-Smirnov a menudo podrá distinguir la diferencia.
Cuando la media de una distribución de Poisson es grande, se vuelve similar a una distribución normal. Sin embargo,
rpois(1000, 10)
ni siquiera parece que similar a una distribución normal (no llega a 0 y en la cola derecha es demasiado largo).¿Por qué lo estás comparando en10--√
ks.test(..., 'pnorm', 10, 3)
lugar deks.test(..., 'pnorm', 10, sqrt(10))
? La diferencia entre 3 y es pequeño pero en sí mismo hará una diferencia al comparar distribuciones. Incluso si la distribución fuera realmente normal, terminaría con una distribución anti-conservadora de valor p:fuente
hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))
demuestra que una prueba que compara dos distribuciones de Poisson idénticas sería demasiado conservadora.Aquí hay una manera mucho más fácil de entenderlo:
Puede ver la distribución binomial como la "madre" de la mayoría de las distribuciones. La distribución normal es solo una aproximación de la distribución binomial cuando n se vuelve lo suficientemente grande. De hecho, Abraham de Moivre descubrió esencialmente la distribución normal al intentar aproximar la distribución binomial porque rápidamente se va de la mano para calcular la distribución binomial a medida que n crece, especialmente cuando no tiene computadoras ( referencia ).
La distribución de Poisson también es solo otra aproximación de la distribución binomial, pero es mucho mejor que la distribución normal cuando n es grande y p es pequeña, o más precisamente cuando el promedio es aproximadamente igual a la varianza (recuerde que para la distribución binomial, promedio = np y var = np (1-p)) ( referencia ). ¿Por qué es tan importante esta situación particular? Aparentemente aparece mucho en el mundo real y es por eso que tenemos esta aproximación "especial". El siguiente ejemplo ilustra escenarios donde la aproximación de Poisson funciona realmente bien.
Ejemplo
Tenemos un centro de datos de 100,000 computadoras. La probabilidad de que cualquier computadora falle hoy es 0.001. Entonces, en promedio np = 100 computadoras fallan en el centro de datos. ¿Cuál es la probabilidad de que solo 50 computadoras fallen hoy?
De hecho, la calidad de aproximación para la distribución normal se va por el desagüe a medida que avanzamos en la cola de la distribución, pero Poisson continúa resistiendo muy bien. En el ejemplo anterior, consideremos ¿cuál es la probabilidad de que solo 5 computadoras fallen hoy?
Con suerte, esto le brinda una mejor comprensión intuitiva de estas 3 distribuciones.
fuente
Un desarrollo bastante largo se puede encontrar en este blog .
fuente