Para calcular el intervalo de confianza (IC) para la media con desviación estándar de población desconocida (sd), estimamos la desviación estándar de población empleando la distribución t. Notablemente, donde . Pero debido a que no tenemos una estimación puntual de la desviación estándar de la población, estimamos a través de la aproximacióndonde
En contraste, para la proporción de la población, para calcular la CI, aproximamos como donde proporcionadoy
Mi pregunta es, ¿por qué somos complacientes con la distribución estándar para la proporción de la población?
Respuestas:
Tanto la distribución estándar Normal como la t de Student son aproximaciones bastante pobres a la distribución de
para n pequeña ,n, tan pobre que el error eclipsa las diferencias entre estas dos distribuciones.
Aquí es una comparación de las tres distribuciones (omitiendo los casos donde p o 1 - p son cero, donde no está definida la relación) para n = 10 , p = 1 / 2 :p^ 1−p^ n=10,p=1/2:
La distribución "empírica" es el deZ, los cuales debe ser discreta porque las estimaciones p se limitan al conjunto finito { 0 , 1 / n , 2p^ {0,1/n,2/n,…,n/n}.
Elt distribución parece hacer un mejor trabajo de aproximación.
Paran=30 yp=1/2, se puede ver la diferencia entre el nivel normal y distribuciones t de Student es completamente insignificante:
Debido a que la distribución t de Student es más complicada que la Normal estándar (en realidad es una familia completa de distribuciones indexadas por los "grados de libertad", que anteriormente requerían capítulos completos de tablas en lugar de una sola página), la Normal estándar se usa para casi todos aproximaciones
fuente
La justificación para usar la distribución t en el intervalo de confianza para una media se basa en el supuesto de que los datos subyacentes siguen una distribución normal, lo que conduce a una distribución chi-cuadrado al estimar la desviación estándar, y por lo tantox¯−μs/n√∼tn−1 . Este es un resultado exacto bajo el supuesto de que los datos son exactamente normales, lo que lleva a intervalos de confianza con una cobertura del 95% exactamente cuando se usat , y una cobertura inferior al 95% si se usaz .
En el caso de intervalos de Wald para proporciones, que sólo recibe la normalidad asintótica para p - pp^−pp^(1−p^)/n√ cuando n es lo suficientemente grande, que depende de p. La probabilidad de cobertura real del procedimiento, dado que los recuentos subyacentes de éxitos son discretos, a veces es inferior y a veces superior a la probabilidad de cobertura nominal del 95%, dependiendo de lap desconocida. Por lo tanto, no hay justificación teórica para usart , y no hay garantía de que desde una perspectiva práctica que usart solo para ampliar los intervalos realmente ayude a lograr una cobertura nominal del 95%.
La probabilidad de cobertura se puede calcular exactamente, aunque es bastante sencillo simularla. El siguiente ejemplo muestra la probabilidad de cobertura simulada cuando n = 35. Demuestra que la probabilidad de cobertura para usar el intervalo z generalmente es ligeramente menor que .95, mientras que la probabilidad de cobertura para el intervalo t generalmente puede ser más cercana a .95 en promedio, dependiendo de sus creencias previas sobre los valores plausibles de p .
fuente
Tanto AdamO como jsk dan una gran respuesta.
Intentaría repetir sus puntos con un inglés simple:
Cuando la distribución subyacente es normal, sabe que hay dos parámetros: media y varianza . La distribución T ofrece una forma de hacer inferencia sobre la media sin conocer el valor exacto de las variaciones. En lugar de usar variaciones reales, solo muestra medias y muestra las variaciones son necesarios. Debido a que es una distribución exacta, usted sabe exactamente lo que está obteniendo. En otras palabras, la probabilidad de cobertura es correcta. El uso de t simplemente refleja el deseo de sortear la varianza desconocida de la población.
Sin embargo, cuando hacemos inferencia sobre la proporción, la distribución subyacente es binomial. Para obtener la distribución exacta, debe mirar los intervalos de confianza de Clopper-Pearson. La fórmula que proporciona es la fórmula para el intervalo de confianza de Wald. Utiliza la distribución normal para aproximar la distribución binomial, porque la distribución normal es la distribución limitante de la distribución binomial. En este caso, debido a que solo se está aproximando, el nivel adicional de precisión del uso de estadísticas t se vuelve innecesario, todo se reduce al rendimiento empírico. Como se sugiere en la respuesta de BruceET, el Agresti-Coull es una fórmula simple y estándar hoy en día para tal aproximación.
Mi profesor, el Dr. Longnecker, de Texas A&M, ha realizado una simulación simple para ilustrar cómo funciona la aproximación diferente en comparación con el IC basado en binomio.
Se puede encontrar más información en el artículo Estimación del intervalo para una proporción binomial en estadística estadística , vol. 16, pp.101-133, por L. Brown, T. Cai y A. DasGupta. Básicamente, se recomienda AC CI para n> = 40.
fuente
Intervalo de confianza para la media normal. Supongamos que tenemos una muestra aleatoriaX1,X2,…Xn de una población normal. Veamos el intervalo de confianza para la media normal μ en términos de prueba de hipótesis. Si se conoce σ , entonces una prueba bilateral de H0:μ=μ0 contra Ha:μ≠μ0 se basa en la estadística Z=X¯−μ0σ/n√. CuandoH0 es verdadero,Z∼Norm(0,1), entonces rechazamosH0 al nivel del 5% si|Z|≥1.96.
Luego, 'invirtiendo la prueba', decimos que un IC del 95% paraμ consiste en los valores μ0 que no conducen al rechazo, los valores 'creíbles' de μ. El CI tiene la forma X¯±1.96σ/n−−√, donde±1.96 probabilidad de corte 0.025 de las colas superior e inferior, respectivamente, de la distribución normal estándar.
fuente
Además, debe tenerse en cuenta que esta pregunta refleja la respuesta solicitada por esta pregunta .
fuente