Casi todos los libros de texto que discuten la aproximación normal a la distribución binomial mencionan la regla general de que la aproximación se puede usar si y . Algunos libros sugierenen lugar. La misma constante a menudo aparece en discusiones sobre cuándo fusionar celdas en el -prueba. Ninguno de los textos que encontré da una justificación o referencia para esta regla general.
¿De dónde viene esta constante 5? ¿Por qué no 4 o 6 o 10? ¿Dónde se introdujo originalmente esta regla práctica?
Respuestas:
El artículo de Wikipedia sobre la distribución binomial ofrece algunas posibilidades, en la sección Aproximación normal , que actualmente incluye el siguiente comentario (énfasis mío):
Ahora, esto está asociado con asegurar que la aproximación normalx ∼ N( μ , σ) cae dentro de los límites legales para una variable binomial, x ∈ [ 0 , n ] .
Para explicar esto, si parametrizamos la probabilidad de cobertura deseada en términos de una puntuación zz> 0 , entonces nosotros tenemos
Entonces, en la medida en que esta probabilidad de cobertura es "bonita" y 5 es un buen número redondo ... ¿tal vez podría dar alguna justificación? No tengo mucha experiencia con textos de probabilidad, por lo que no puedo decir cuán común es "5" frente a otros "números específicos" para usar la redacción de Wikipedia. Mi sensación es que no hay nada realmente especial sobre 5, y Wikipedia sugiere que 9 es común también (correspondiente a un "bonito"z de 3).
fuente
No es una explicación completa, pero es interesante volver a las Estadísticas de Annals of Math de Cochran de 1952 "Theχ2 prueba de bondad de ajuste "( http://www.jstor.org/stable/2236678 ), Parte II (" Algunos aspectos del uso práctico de la prueba "), que es de una antigüedad bastante respetable en el campo ... Cochran discute la historia de los fundamentos teóricos de la prueba (Pearson 1900, Fisher 1922, 1924), pero no toca la regla general hasta el siguiente pasaje ... [énfasis agregado]
fuente
Además de las excelentes respuestas ya publicadas, pensé que podría ser útil tener una visualización que explore las distribuciones de las proporciones observadas para variarnorte y pags valores.
Para generar los siguientes histogramas, toménorte muestras de un ensayo de Bernoulli con probabilidad pags , y repitió este proceso 10,000 veces. Luego generé un histograma de las proporciones observadas de cada uno de esos 10,000 experimentos.
Hablando visualmente, parecen p ≥ 5 Es bastante razonable. Aunque cuandon = 50 parece que todavía hay algo de recorte con n p = 5.5 y n p = 6.5 . Una vez que llegues an p = 7.5 , el impacto parece bastante pequeño.
También tenga en cuenta que estas parcelas serían simétricas si tomamos nuevaspags′ valores de pags′= ( 1 - p ) .
Código de Python para generar las parcelas. Puedes usar esto para ajustarnorte y pags si quieres experimentar tu mismo
fuente
La regla proporciona un criterio que asegura que p no esté ni cerca de 0 ni de 1. Si está más cerca de 0 o 1, la distribución resultante no será una buena aproximación a la distribución normal.
Puedes ver una justificación pictórica de lo mismo aquí
fuente