Los cursos de estadística básica a menudo sugieren usar una distribución normal para estimar la media de un parámetro de población cuando el tamaño de la muestra n es grande (generalmente más de 30 o 50). La distribución T de Student se usa para tamaños de muestra más pequeños para tener en cuenta la incertidumbre en la desviación estándar de la muestra. Cuando el tamaño de la muestra es grande, la desviación estándar de la muestra proporciona buena información sobre la desviación estándar de la población, lo que permite una estimación de distribución normal. Lo entiendo.
Pero, ¿por qué usar una estimación cuando puede obtener exactamente su intervalo de confianza? Independientemente del tamaño de la muestra, ¿cuál es el punto de usar la distribución normal si es solo una estimación de algo que puede obtener exactamente con la distribución T?
Respuestas:
Solo para aclarar la relación con el título, no estamos utilizando la distribución t para estimar la media (en el sentido de una estimación puntual al menos), sino para construir un intervalo para ella.
Es una buena pregunta (siempre y cuando no seamos demasiado insistentes en "exactamente", ya que las suposiciones para que sea exactamente distribuida en t no se mantendrán).
Considero el consejo como, en el mejor de los casos, potencialmente engañoso. En algunas situaciones, la distribución t aún debe usarse cuando los grados de libertad son mucho más grandes que eso.
Donde lo normal es una aproximación razonable depende de una variedad de cosas (y así depende de la situación). Sin embargo, dado que (con las computadoras) no es nada difícil usar lat , incluso si la df es muy grande, tendría que preguntarse por qué la necesidad de preocuparse por hacer algo diferente en n = 30.
Si los tamaños de muestra son realmente grandes, no habrá una diferencia notable en un intervalo de confianza, pero no creo que n = 30 siempre esté lo suficientemente cerca de 'realmente grande'.
Hay una circunstancia en la que podría tener sentido usar la normal en lugar de lat : es cuando sus datos claramente no satisfacen las condiciones para obtener una distribución t, pero aún puede argumentar la normalidad aproximada de la media (si n es bastante grande). Sin embargo, en esas circunstancias, a menudo la t es una buena aproximación en la práctica, y puede ser algo "más segura". [En una situación como esa, podría inclinarme a investigar a través de la simulación.]
fuente
Es un anacronismo histórico. Hay muchos de ellos en estadísticas.
Si no tenía una computadora, era difícil usar la distribución t y mucho más fácil usar una distribución normal. Una vez que el tamaño de la muestra aumenta, las dos distribuciones se vuelven similares (qué tan grande es 'grande' es otra cuestión).
fuente
fuente