Intento entender la idea detrás de la distribución t. Estos son los pasos que he entendido hasta ahora:
- Utilizamos una muestra de N elementos para estimar la media de la población. En más detalles, usamos la media muestral como una estimación de la media poblacional.
- Queremos saber qué tan cerca está nuestra estimación del valor real. O, más específicamente, queremos saber qué tan grande debe ser el intervalo alrededor de la media de la muestra para poder decir que la media de la población está dentro de este intervalo con una cierta probabilidad.
- Para responder a esta pregunta, suponemos que los valores en la población se distribuyen de acuerdo con una distribución normal con una media conocida y desviación estándar.
- Teniendo los parámetros de la distribución de los valores en la población, podemos calcular la distribución de la media muestral en función de la distribución de la población y el tamaño de la muestra.
- Podemos mostrar que la distribución de la media de la muestra también es una distribución normal con la misma media que la distribución de la población y la desviación estándar dada por la siguiente fórmula , donde es el tamaño de la muestra .
- Teniendo la distribución de la media muestral, podemos calcular fácilmente la probabilidad de que la media muestral esté separada de la media real por X. O, en otras palabras, podemos calcular la probabilidad de que la media poblacional esté dentro de un intervalo dado alrededor de la media muestral. .
- Es casi lo que necesitamos. El único problema es que en entornos de la vida real a menudo no conocemos la desviación estándar de la distribución de la población (y este es el parámetro que determina cómo se distribuye nuestra media muestral alrededor de la media de la población).
- Lo que podemos hacer es reemplazar la desviación estándar de la población por la desviación estándar de la muestra. En otras palabras, reemplazamos el parámetro exacto y desconocido por nuestra estimación aproximada del mismo.
Entonces, aquí es donde estoy hasta ahora. Al reemplazar la ETS de la población por ETS de la muestra, empeoramos nuestra estimación de la distribución de la muestra. Y para "compensar" este valor "incorrecto" de los parámetros de la distribución, cambiamos la forma de distribución (decimos que ya no es una distribución normal, es una distribución t). Pero, ¿qué se distribuye exactamente de acuerdo con la distribución t? Cuando conocemos la ETS de la población, sabemos cómo se distribuye la media de la muestra alrededor de la media de la población. ¡Ahora no conocemos la ETS de la población, pero no cambia la distribución de la media de la muestra alrededor de la media de la población!
X_n
), hablamos sobre la "media estandarizada". Podemos decir que la distribución de la media estandarizada es normal, con media cero y ETS igual a 1. No, definimos otra variable reemplazando la ETS de la población por ETS de muestra y decimos que esta nueva variable se distribuye de acuerdo con la distribución t. OKAY. Lo último que no entiendo es por qué no reemplazamos la media poblacional por la media muestral. Si no conocemos sigma, probablemente tampoco conozcamos el mu.