¿Por qué no hacemos uso de la distribución t para construir un intervalo de confianza para una proporción?

18

Para calcular el intervalo de confianza (IC) para la media con desviación estándar de población desconocida (sd), estimamos la desviación estándar de población empleando la distribución t. Notablemente, CI=X¯±Z95%σX¯ donde σX¯=σn . Pero debido a que no tenemos una estimación puntual de la desviación estándar de la población, estimamos a través de la aproximaciónCI=X¯±t95%(se)dondese=sn

En contraste, para la proporción de la población, para calcular la CI, aproximamos como CI=p^±Z95%(se) donde se=p^(1p^)n proporcionadonp^15yn(1p^)15

Mi pregunta es, ¿por qué somos complacientes con la distribución estándar para la proporción de la población?

Abhijit
fuente
1
Mi intuición dice que esto se debe a que para obtener el error estándar de la media tiene un segundo desconocido, σ , que se estima a partir de la muestra para completar el cálculo. El error estándar para la proporción no implica incógnitas adicionales.
Restablece a Monica - G. Simpson el
@GavinSimpson Suena convincente. De hecho, la razón por la que introdujimos la distribución t es para compensar el error introducido para compensar la aproximación de la desviación estándar.
Abhijit
3
Esto me parece poco convincente en parte porque la distribución surge de la independencia de la varianza muestral y la media muestral en muestras de una distribución Normal, mientras que para muestras de una distribución Binomial las dos cantidades no son independientes. t
whuber
@Abhijit Algunos libros de texto usan una distribución t como aproximación para esta estadística (bajo ciertas condiciones); parecen usar n-1 como df. Si bien todavía no veo un buen argumento formal para ello, la aproximación a menudo parece funcionar bastante bien; Para los casos que he comprobado, generalmente es ligeramente mejor que la aproximación normal (pero para eso hay un argumento asintótico sólido que le falta a la aproximación t). [Editar: mis propios controles eran más o menos similares a los de whuber shows; la diferencia entre la z y la t es mucho menor que su discrepancia de la estadística]
Glen_b -Reinstate a Monica el
1
Puede ser que haya un posible argumento (tal vez basado en los primeros términos de una expansión de la serie, por ejemplo) que podría establecer que casi siempre se debe esperar que la t sea mejor, o tal vez que debería ser mejor en algunas condiciones específicas, pero yo No he visto ningún argumento de este tipo. Personalmente, generalmente me quedo con la z, pero no me preocupa si alguien usa una t.
Glen_b -Reinstate a Monica el

Respuestas:

20

Tanto la distribución estándar Normal como la t de Student son aproximaciones bastante pobres a la distribución de

Z=p^pp^(1p^)/n

para n pequeña ,n, tan pobre que el error eclipsa las diferencias entre estas dos distribuciones.

Aquí es una comparación de las tres distribuciones (omitiendo los casos donde p o 1 - p son cero, donde no está definida la relación) para n = 10 , p = 1 / 2 :p^1p^n=10,p=1/2:

Figura 1

La distribución "empírica" es el de Z, los cuales debe ser discreta porque las estimaciones p se limitan al conjunto finito { 0 , 1 / n , 2p^{0,1/n,2/n,,n/n}.

El t distribución parece hacer un mejor trabajo de aproximación.

Para n=30 yp=1/2, se puede ver la diferencia entre el nivel normal y distribuciones t de Student es completamente insignificante:

Figura 2

Debido a que la distribución t de Student es más complicada que la Normal estándar (en realidad es una familia completa de distribuciones indexadas por los "grados de libertad", que anteriormente requerían capítulos completos de tablas en lugar de una sola página), la Normal estándar se usa para casi todos aproximaciones

whuber
fuente
2
Respuesta de calidad +1
Demetri Pananos
10

La justificación para usar la distribución t en el intervalo de confianza para una media se basa en el supuesto de que los datos subyacentes siguen una distribución normal, lo que conduce a una distribución chi-cuadrado al estimar la desviación estándar, y por lo tanto x¯μs/ntn1. Este es un resultado exacto bajo el supuesto de que los datos son exactamente normales, lo que lleva a intervalos de confianza con una cobertura del 95% exactamente cuando se usat, y una cobertura inferior al 95% si se usaz .

En el caso de intervalos de Wald para proporciones, que sólo recibe la normalidad asintótica para p - pp^pp^(1p^)/ncuando n es lo suficientemente grande, que depende de p. La probabilidad de cobertura real del procedimiento, dado que los recuentos subyacentes de éxitos son discretos, a veces es inferior y a veces superior a la probabilidad de cobertura nominal del 95%, dependiendo de lapdesconocida. Por lo tanto, no hay justificación teórica para usart, y no hay garantía de que desde una perspectiva práctica que usart solo para ampliar los intervalos realmente ayude a lograr una cobertura nominal del 95%.

La probabilidad de cobertura se puede calcular exactamente, aunque es bastante sencillo simularla. El siguiente ejemplo muestra la probabilidad de cobertura simulada cuando n = 35. Demuestra que la probabilidad de cobertura para usar el intervalo z generalmente es ligeramente menor que .95, mientras que la probabilidad de cobertura para el intervalo t generalmente puede ser más cercana a .95 en promedio, dependiendo de sus creencias previas sobre los valores plausibles de p .

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

jsk
fuente
3
+1 Estas son excelentes ilustraciones de las afirmaciones que hice (basadas solo en gráficos de inspección de CDF, en lugar de demostraciones rigurosas) sobre la precisión relativa de los t de Student y CI normales.
whuber
6

Tanto AdamO como jsk dan una gran respuesta.

Intentaría repetir sus puntos con un inglés simple:

Cuando la distribución subyacente es normal, sabe que hay dos parámetros: media y varianza . La distribución T ofrece una forma de hacer inferencia sobre la media sin conocer el valor exacto de las variaciones. En lugar de usar variaciones reales, solo muestra medias y muestra las variaciones son necesarios. Debido a que es una distribución exacta, usted sabe exactamente lo que está obteniendo. En otras palabras, la probabilidad de cobertura es correcta. El uso de t simplemente refleja el deseo de sortear la varianza desconocida de la población.

Sin embargo, cuando hacemos inferencia sobre la proporción, la distribución subyacente es binomial. Para obtener la distribución exacta, debe mirar los intervalos de confianza de Clopper-Pearson. La fórmula que proporciona es la fórmula para el intervalo de confianza de Wald. Utiliza la distribución normal para aproximar la distribución binomial, porque la distribución normal es la distribución limitante de la distribución binomial. En este caso, debido a que solo se está aproximando, el nivel adicional de precisión del uso de estadísticas t se vuelve innecesario, todo se reduce al rendimiento empírico. Como se sugiere en la respuesta de BruceET, el Agresti-Coull es una fórmula simple y estándar hoy en día para tal aproximación.

Mi profesor, el Dr. Longnecker, de Texas A&M, ha realizado una simulación simple para ilustrar cómo funciona la aproximación diferente en comparación con el IC basado en binomio.

Comparison of Various 95% C.I.’s for Proportion

Se puede encontrar más información en el artículo Estimación del intervalo para una proporción binomial en estadística estadística , vol. 16, pp.101-133, por L. Brown, T. Cai y A. DasGupta. Básicamente, se recomienda AC CI para n> = 40.

enter image description here

Qilin Wang
fuente
3

Intervalo de confianza para la media normal. Supongamos que tenemos una muestra aleatoria X1,X2,Xn de una población normal. Veamos el intervalo de confianza para la media normal μ en términos de prueba de hipótesis. Si se conoce σ , entonces una prueba bilateral de H0:μ=μ0 contra Ha:μμ0 se basa en la estadística Z=X¯μ0σ/n.CuandoH0es verdadero,ZNorm(0,1),entonces rechazamosH0al nivel del 5% si|Z|1.96.

Luego, 'invirtiendo la prueba', decimos que un IC del 95% para μ consiste en los valores μ0 que no conducen al rechazo, los valores 'creíbles' de μ.El CI tiene la forma X¯±1.96σ/n,donde±1.96 probabilidad de corte 0.025 de las colas superior e inferior, respectivamente, de la distribución normal estándar.

σS,T=X¯μ0S/n.TnSσ.

TT(ν=n1),n1σX¯±tS/n,±tT(n1).

n>30,t21.96.Sσσn>30,

Xnp^=X/np.H0:p=p0Ha:pp>0,Z=p^p0p0(1p0)/n.H0,ZaprxNorm(0,1).H0|Z|1.96.

p,p^±1.96p(1p)n.pn,p^p.p^±1.96p^(1p^)n.n

nˇ=n+4pˇ=(X+2)/nˇpˇ±1.96pˇ(1pˇ)nˇ.

μp pueden verse como inversiones de pruebas.

Sσσ se desconoce .

p^pp^p.pn.

BruceET
fuente
2

σ notación que significa la desviación estándar de población (conocida).

σ ?

σ de la muestra como un estimador de complemento, tus IC son en promedio demasiado estrechos. Esto requirió la distribución T.

σ

Además, debe tenerse en cuenta que esta pregunta refleja la respuesta solicitada por esta pregunta .

AdamO
fuente
2
El seudónimo que Gosset publicó bajo era "Student" y no "Student-T". Tampoco se le ocurrió la distribución t estándar en sí, ni la estadística con la que se ocupó fue realmente la estadística t (hizo cosas equivalentes, esencialmente se ocupó de una t escalada, pero casi todo el formalismo que tenemos ahora viene del trabajo de Fisher). Fisher escribió la estadística tal como la escribimos nosotros. Fisher lo llamó el t. Fisher derivó formalmente la distribución de la estadística (que muestra la combinación de álgebra, intuición y simulación de argumentos de Gosset sobre su versión de la estadística era correcta)
Glen_b
1
Vea el documento de Gosset de 1908 aquí: archive.org/details/biometrika619081909pear/page/n13 ; también hay un bonito pdf legible del documento rehecho en LaTeX aquí . Tenga en cuenta que esto está fuera de derechos de autor, ya que se produce más de unos años antes de Steamboat Willie .
Glen_b: reinstala a Monica el
@Glen_b ¡Gracias! Eliminé las anécdotas aparentemente incorrectas de la historia.
AdamO