¿Qué se distribuye exactamente según la distribución t?

Intento entender la idea detrás de la distribución t. Estos son los pasos que he entendido hasta ahora:

Utilizamos una muestra de N elementos para estimar la media de la población. En más detalles, usamos la media muestral como una estimación de la media poblacional.
Queremos saber qué tan cerca está nuestra estimación del valor real. O, más específicamente, queremos saber qué tan grande debe ser el intervalo alrededor de la media de la muestra para poder decir que la media de la población está dentro de este intervalo con una cierta probabilidad.
Para responder a esta pregunta, suponemos que los valores en la población se distribuyen de acuerdo con una distribución normal con una media conocida y desviación estándar.
Teniendo los parámetros de la distribución de los valores en la población, podemos calcular la distribución de la media muestral en función de la distribución de la población y el tamaño de la muestra.
Podemos mostrar que la distribución de la media de la muestra también es una distribución normal con la misma media que la distribución de la población y la desviación estándar dada por la siguiente fórmula , donde es el tamaño de la muestra . $s = \sigma/\sqrt{N}$ $N$
Teniendo la distribución de la media muestral, podemos calcular fácilmente la probabilidad de que la media muestral esté separada de la media real por X. O, en otras palabras, podemos calcular la probabilidad de que la media poblacional esté dentro de un intervalo dado alrededor de la media muestral. .
Es casi lo que necesitamos. El único problema es que en entornos de la vida real a menudo no conocemos la desviación estándar de la distribución de la población (y este es el parámetro que determina cómo se distribuye nuestra media muestral alrededor de la media de la población).
Lo que podemos hacer es reemplazar la desviación estándar de la población por la desviación estándar de la muestra. En otras palabras, reemplazamos el parámetro exacto y desconocido por nuestra estimación aproximada del mismo.

Entonces, aquí es donde estoy hasta ahora. Al reemplazar la ETS de la población por ETS de la muestra, empeoramos nuestra estimación de la distribución de la muestra. Y para "compensar" este valor "incorrecto" de los parámetros de la distribución, cambiamos la forma de distribución (decimos que ya no es una distribución normal, es una distribución t). Pero, ¿qué se distribuye exactamente de acuerdo con la distribución t? Cuando conocemos la ETS de la población, sabemos cómo se distribuye la media de la muestra alrededor de la media de la población. ¡Ahora no conocemos la ETS de la población, pero no cambia la distribución de la media de la muestra alrededor de la media de la población!

normal-distribution population t-distribution mean romano
fuente

Respuestas:

Estás muy cerca...

Si $X_1, \dots, X_n$ es una muestra de iid observaciones normales con media $\mu$ y varianza $\sigma^2$ , entonces la media estandarizada

\frac{{\bar{X}}_{norte} - μ}{σ / / \sqrt{norte}}

$\frac{\bar X_n-\mu}{\sigma/\sqrt{n}}$ Es normal normal. Ahora, como usted señaló, en realidad nunca sabemos

σ

$\sigma$ . Entonces reemplazamos

σ

$\sigma$ por su muestra estimada

S

$S$ y considerar el significado "estudiante"

T = \frac{{\bar{X}}_{norte} - μ}{S / / \sqrt{norte}}

$T = \frac{\bar X_n-\mu}{S/\sqrt{n}}$ en lugar. Esta variable aleatoria es ligeramente diferente de la anterior. En consecuencia, su distribución es ligeramente no normal, es decir, Estudiante con

n - 1

$n-1$ grados de libertad.

Para no demasiado pequeño $n$ , $S$ esta cerca de $\sigma$ (esa es la consistencia de la desviación estándar de la muestra). Entonces, la media estandarizada está muy cerca de la studentizada. Esto explica por qué la distribución de Estudiantes con muchos grados de libertad se parece a la normal.

La media studentizada es el punto de partida para derivar intervalos de confianza y pruebas de hipótesis para $\mu$ .

Ejemplo : para encontrar un límite de confianza inferior del 95% $\bar X_n -c$ para $\mu$ , resuelves la siguiente ecuación

PAGS ({\bar{X}}_{norte} - C \leq μ) = 0,95

$P(\bar X_n -c \le \mu) = 0.95$ para

c

$c$ . Para hacerlo, intente modificar la ecuación en la probabilidad para que aparezca la media estudiada (intente averiguar los subpasos):

PAGS (T \leq \frac{C}{S / / \sqrt{norte}}) = 0,95.

$P(T \le \frac{c}{S/\sqrt{n}}) = 0.95.$ Entonces usas el hecho de que

T

$T$ tiene una distribución de estudiantes con

n - 1

$n-1$ df para deshacerse de la probabilidad:

\frac{C}{S / / \sqrt{norte}} = q t_{0,95; norte - 1},

$\frac{c}{S/\sqrt{n}} = qt_{0.95;n-1},$ dónde

q t_{0.95; n - 1}

$qt_{0.95;n-1}$ es el correspondiente 95% cuantil. Así,

C = \frac{S}{\sqrt{norte}} \cdot q t_{0,95; norte - 1}

$c = \frac{S}{\sqrt{n}} \cdot qt_{0.95;n-1}$ y sigue el (famoso) límite inferior de confianza:

{\bar{X}}_{norte} - \frac{S}{\sqrt{norte}} \cdot q t_{0,95; norte - 1}

$\bar X_n - \frac{S}{\sqrt{n}} \cdot qt_{0.95;n-1}$

Michael M
fuente

Significa que en lugar de hablar sobre la media de la muestra ( X_n), hablamos sobre la "media estandarizada". Podemos decir que la distribución de la media estandarizada es normal, con media cero y ETS igual a 1. No, definimos otra variable reemplazando la ETS de la población por ETS de muestra y decimos que esta nueva variable se distribuye de acuerdo con la distribución t. OKAY. Lo último que no entiendo es por qué no reemplazamos la media poblacional por la media muestral. Si no conocemos sigma, probablemente tampoco conozcamos el mu.

Roman

¡Hacemos! Pero las preguntas más interesantes sobre

μ

$\mu$ como "en qué rango

μ

$\mu$ estar con alta certeza "(-> intervalo de confianza) o" es

μ

$\mu$ realmente diferentes de 0 "(-> prueba de hipótesis) se responden usando el hecho de que la media estudiantil sigue una distribución estudiantil. No puede responder preguntas como esa solo mirando la estimación.

Michael M