¿Por qué la distribución t se vuelve más normal a medida que aumenta el tamaño de la muestra?

19

Según Wikipedia, entiendo que la distribución t es la distribución de muestreo del valor t cuando las muestras son observaciones en una población normalmente distribuida. Sin embargo, no entiendo intuitivamente por qué eso hace que la forma de la distribución t cambie de cola gruesa a casi perfectamente normal.

Entiendo que si está tomando muestras de una distribución normal, si toma una muestra grande, se parecerá a esa distribución, pero no entiendo por qué comienza con la forma de cola gruesa que tiene.

user1205901 - Restablecer Monica
fuente

Respuestas:

22

Trataré de dar una explicación intuitiva.

La estadística t * tiene un numerador y un denominador. Por ejemplo, la estadística en la prueba t de una muestra es

x¯μ0s/n

* (hay varios, pero es de esperar que esta discusión sea lo suficientemente general como para cubrir los que está preguntando)

Según los supuestos, el numerador tiene una distribución normal con media 0 y alguna desviación estándar desconocida.

Bajo el mismo conjunto de supuestos, el denominador es una estimación de la desviación estándar de la distribución del numerador (el error estándar de la estadística en el numerador). Es independiente del numerador. Su cuadrado es una variable aleatoria de chi-cuadrado dividida por sus grados de libertad (que también es el df de la distribución t) multiplicado por el numerador .σnumerator

Cuando los grados de libertad son pequeños, el denominador tiende a ser bastante sesgado. Tiene una alta probabilidad de ser inferior a su media, y una probabilidad relativamente buena de ser bastante pequeña. Al mismo tiempo, también tiene alguna posibilidad de ser mucho, mucho más grande que su media.

Bajo el supuesto de normalidad, el numerador y el denominador son independientes. Entonces, si extraemos aleatoriamente de la distribución de esta estadística t, tenemos un número aleatorio normal dividido por un segundo valor elegido aleatoriamente * de una distribución oblicua a la derecha que es en promedio alrededor de 1.

* sin tener en cuenta el término normal

Debido a que está en el denominador, los valores pequeños en la distribución del denominador producen valores t muy grandes. El sesgo a la derecha en el denominador hace que la estadística t sea de cola pesada. La cola derecha de la distribución, cuando está en el denominador, hace que la distribución t alcance un pico más agudo que el normal con la misma desviación estándar que la t .

Sin embargo, a medida que los grados de libertad se hacen más grandes, la distribución se vuelve mucho más normal y mucho más "ajustada" en torno a su media.

ingrese la descripción de la imagen aquí

Como tal, el efecto de dividir por el denominador en la forma de la distribución del numerador se reduce a medida que aumentan los grados de libertad.

Eventualmente, como podría sugerirnos el teorema de Slutsky, el efecto del denominador se vuelve más como dividir entre una constante y la distribución del estadístico t es muy cercana a lo normal.


Considerado en términos del recíproco del denominador

Whuber sugirió en los comentarios que podría ser más esclarecedor mirar el recíproco del denominador. Es decir, podríamos escribir nuestras estadísticas t como numerador (normal) multiplicado por recíproco de denominador (sesgo a la derecha).

Por ejemplo, nuestra estadística t de una muestra anterior se convertiría en:

n(x¯μ0)1/s

Ahora considere la desviación estándar de la población del original , σ x . Podemos multiplicar y dividir por eso, así:Xiσx

n(x¯μ0)/σxσx/s

El primer término es estándar normal. El segundo término (la raíz cuadrada de una variable aleatoria de chi-cuadrado inverso escalado) luego escala esa normal estándar por valores que son mayores o menores que 1, "extendiéndolo".

Bajo el supuesto de normalidad, los dos términos en el producto son independientes. Entonces, si extraemos aleatoriamente de la distribución de esta estadística t, tenemos un número aleatorio normal (el primer término en el producto) multiplicado por un segundo valor elegido aleatoriamente (sin tener en cuenta el término normal) de una distribución sesgada a la derecha que es ' típicamente 'alrededor de 1.

Cuando el df es grande, el valor tiende a ser muy cercano a 1, pero cuando el df es pequeño, es bastante sesgado y la extensión es grande, con la gran cola derecha de este factor de escala haciendo que la cola sea bastante gorda:

ingrese la descripción de la imagen aquí

Glen_b -Reinstate a Monica
fuente
¡Gracias! Esto ha aclarado mucho, pero todavía estaba un poco inseguro sobre "Su cuadrado es una variable aleatoria de chi-cuadrado dividida por sus grados de libertad (que también es el df de la distribución t) veces [la desviación estándar del] numerador ". ¿Mencionaste eso simplemente porque era algo útil de saber, o es algo de relevancia directa para la respuesta a mi pregunta? Entiendo que es la distribución del denominador, en oposición a la distribución del cuadrado del denominador, lo que se representa en su figura.
user1205901 - Reinstale Monica el
2
La distribución de la estadística sería más pesada de lo normal incluso si no fuera específicamente la raíz cuadrada de un chi-cuadrado en su df; en ese sentido, no alteraría directamente la respuesta para dejarla fuera. Pero al menos sirve como una explicación de dónde provienen las distribuciones de chi escaladas en el diagrama.
Glen_b -Reinstate Monica
3
Creo que podría ser un poco más esclarecedor realizar este análisis basado en el recíproco de la desviación estándar de la muestra. Eso, junto con un argumento de que la muestra SD es independiente de la media muestral (una idea clave que se beneficiaría de un poco más de énfasis y explicación, en mi humilde opinión), ayudaría a las personas a ver que la división de la media muestral por la muestra SD tiene que distribuir lo que de otro modo sería una distribución Normal. (Esto, por supuesto, fue el punto central del descubrimiento de Gossett.)
whuber
1
@whuber He agregado una sección que lo discute en términos del recíproco, pero también retuve el debate original (me parece más directo, pero aprecio que muchas personas puedan sacar más provecho de él en términos del recíproco) . También
agregaré
1
s/nσ/ns/σσ/sσ
8

@Glen_b le dio la intuición de por qué la estadística t parece más normal a medida que aumenta el tamaño de la muestra. Ahora, le daré una explicación un poco más técnica para el caso cuando ya obtuvo la distribución de la estadística.

n1n

(1+x2n1)n/2n1B(n12,12).

Es posible demostrar que

1n1B(n12,12)12π,

y

(1+x2n1)n/2exp(x2/2),

n

Kruger
fuente
2
1/n(1+(x/n)2)1tn¿grados de libertad? Quiere saber por qué la secuencia "comienza con la forma de cola gruesa que tiene".
whuber
2
nn
2

Solo quería compartir algo que ayudó a mi intuición como principiante (aunque es menos riguroso que las otras respuestas).

Z,Z1,...,Zn

ZZ12+...+Zn2n

n

n1Zn

E[Z2]=1nZi2nZi2

nZ1=Z

HJ_beginner
fuente