¿Qué se distribuye exactamente según la distribución t?

8

Intento entender la idea detrás de la distribución t. Estos son los pasos que he entendido hasta ahora:

  1. Utilizamos una muestra de N elementos para estimar la media de la población. En más detalles, usamos la media muestral como una estimación de la media poblacional.
  2. Queremos saber qué tan cerca está nuestra estimación del valor real. O, más específicamente, queremos saber qué tan grande debe ser el intervalo alrededor de la media de la muestra para poder decir que la media de la población está dentro de este intervalo con una cierta probabilidad.
  3. Para responder a esta pregunta, suponemos que los valores en la población se distribuyen de acuerdo con una distribución normal con una media conocida y desviación estándar.
  4. Teniendo los parámetros de la distribución de los valores en la población, podemos calcular la distribución de la media muestral en función de la distribución de la población y el tamaño de la muestra.
  5. Podemos mostrar que la distribución de la media de la muestra también es una distribución normal con la misma media que la distribución de la población y la desviación estándar dada por la siguiente fórmula , donde es el tamaño de la muestra .s=σ/Nnorte
  6. Teniendo la distribución de la media muestral, podemos calcular fácilmente la probabilidad de que la media muestral esté separada de la media real por X. O, en otras palabras, podemos calcular la probabilidad de que la media poblacional esté dentro de un intervalo dado alrededor de la media muestral. .
  7. Es casi lo que necesitamos. El único problema es que en entornos de la vida real a menudo no conocemos la desviación estándar de la distribución de la población (y este es el parámetro que determina cómo se distribuye nuestra media muestral alrededor de la media de la población).
  8. Lo que podemos hacer es reemplazar la desviación estándar de la población por la desviación estándar de la muestra. En otras palabras, reemplazamos el parámetro exacto y desconocido por nuestra estimación aproximada del mismo.

Entonces, aquí es donde estoy hasta ahora. Al reemplazar la ETS de la población por ETS de la muestra, empeoramos nuestra estimación de la distribución de la muestra. Y para "compensar" este valor "incorrecto" de los parámetros de la distribución, cambiamos la forma de distribución (decimos que ya no es una distribución normal, es una distribución t). Pero, ¿qué se distribuye exactamente de acuerdo con la distribución t? Cuando conocemos la ETS de la población, sabemos cómo se distribuye la media de la muestra alrededor de la media de la población. ¡Ahora no conocemos la ETS de la población, pero no cambia la distribución de la media de la muestra alrededor de la media de la población!

romano
fuente

Respuestas:

7

Estás muy cerca...

Si X1,...,Xnorte es una muestra de iid observaciones normales con media μ y varianza σ2, entonces la media estandarizada

X¯norte-μσ/ /norte
Es normal normal. Ahora, como usted señaló, en realidad nunca sabemosσ. Entonces reemplazamosσ por su muestra estimada S y considerar el significado "estudiante"
T=X¯norte-μS/ /norte
en lugar. Esta variable aleatoria es ligeramente diferente de la anterior. En consecuencia, su distribución es ligeramente no normal, es decir, Estudiante connorte-1 grados de libertad.

Para no demasiado pequeño norte, S esta cerca de σ(esa es la consistencia de la desviación estándar de la muestra). Entonces, la media estandarizada está muy cerca de la studentizada. Esto explica por qué la distribución de Estudiantes con muchos grados de libertad se parece a la normal.

La media studentizada es el punto de partida para derivar intervalos de confianza y pruebas de hipótesis para μ.

Ejemplo : para encontrar un límite de confianza inferior del 95%X¯norte-C para μ, resuelves la siguiente ecuación

PAGS(X¯norte-Cμ)=0,95
para C. Para hacerlo, intente modificar la ecuación en la probabilidad para que aparezca la media estudiada (intente averiguar los subpasos):
PAGS(TCS/ /norte)=0,95.
Entonces usas el hecho de que T tiene una distribución de estudiantes con norte-1 df para deshacerse de la probabilidad:
CS/ /norte=qt0,95;norte-1,
dónde qt0,95;norte-1es el correspondiente 95% cuantil. Así,
C=Snorteqt0,95;norte-1
y sigue el (famoso) límite inferior de confianza:
X¯norte-Snorteqt0,95;norte-1
Michael M
fuente
Significa que en lugar de hablar sobre la media de la muestra ( X_n), hablamos sobre la "media estandarizada". Podemos decir que la distribución de la media estandarizada es normal, con media cero y ETS igual a 1. No, definimos otra variable reemplazando la ETS de la población por ETS de muestra y decimos que esta nueva variable se distribuye de acuerdo con la distribución t. OKAY. Lo último que no entiendo es por qué no reemplazamos la media poblacional por la media muestral. Si no conocemos sigma, probablemente tampoco conozcamos el mu.
Roman
¡Hacemos! Pero las preguntas más interesantes sobreμ como "en qué rango μ estar con alta certeza "(-> intervalo de confianza) o" es μrealmente diferentes de 0 "(-> prueba de hipótesis) se responden usando el hecho de que la media estudiantil sigue una distribución estudiantil. No puede responder preguntas como esa solo mirando la estimación.
Michael M