¿Por qué no usar la distribución T para estimar la media cuando la muestra es grande?

17

Los cursos de estadística básica a menudo sugieren usar una distribución normal para estimar la media de un parámetro de población cuando el tamaño de la muestra n es grande (generalmente más de 30 o 50). La distribución T de Student se usa para tamaños de muestra más pequeños para tener en cuenta la incertidumbre en la desviación estándar de la muestra. Cuando el tamaño de la muestra es grande, la desviación estándar de la muestra proporciona buena información sobre la desviación estándar de la población, lo que permite una estimación de distribución normal. Lo entiendo.

Pero, ¿por qué usar una estimación cuando puede obtener exactamente su intervalo de confianza? Independientemente del tamaño de la muestra, ¿cuál es el punto de usar la distribución normal si es solo una estimación de algo que puede obtener exactamente con la distribución T?

Pertinax
fuente
@Glen_b Sí, eso sería estimadores de intervalo. Con respecto a estos intervalos: "Debe usar la tabla de distribución t cuando trabaje problemas cuando no se conoce la desviación estándar de la población (σ) y el tamaño de la muestra es pequeño (n <30)" (de web.pdx.edu/~stipakb/ descargar / PA551 / NormalVersusTdistribution.doc). ¿Por qué las personas no usan la distribución T todo el tiempo cuando no se conoce la desviación estándar de la población (incluso cuando n> 30)?
Pertinax

Respuestas:

15

Solo para aclarar la relación con el título, no estamos utilizando la distribución t para estimar la media (en el sentido de una estimación puntual al menos), sino para construir un intervalo para ella.

Pero, ¿por qué usar una estimación cuando puede obtener exactamente su intervalo de confianza?

Es una buena pregunta (siempre y cuando no seamos demasiado insistentes en "exactamente", ya que las suposiciones para que sea exactamente distribuida en t no se mantendrán).

"Debe usar la tabla de distribución t cuando trabaje problemas cuando no se conoce la desviación estándar de la población (σ) y el tamaño de la muestra es pequeño (n <30)"

¿Por qué las personas no usan la distribución T todo el tiempo cuando no se conoce la desviación estándar de la población (incluso cuando n> 30)?

Considero el consejo como, en el mejor de los casos, potencialmente engañoso. En algunas situaciones, la distribución t aún debe usarse cuando los grados de libertad son mucho más grandes que eso.

Donde lo normal es una aproximación razonable depende de una variedad de cosas (y así depende de la situación). Sin embargo, dado que (con las computadoras) no es nada difícil usar la t , incluso si la df es muy grande, tendría que preguntarse por qué la necesidad de preocuparse por hacer algo diferente en n = 30.

Si los tamaños de muestra son realmente grandes, no habrá una diferencia notable en un intervalo de confianza, pero no creo que n = 30 siempre esté lo suficientemente cerca de 'realmente grande'.


Hay una circunstancia en la que podría tener sentido usar la normal en lugar de la t : es cuando sus datos claramente no satisfacen las condiciones para obtener una distribución t, pero aún puede argumentar la normalidad aproximada de la media (si n es bastante grande). Sin embargo, en esas circunstancias, a menudo la t es una buena aproximación en la práctica, y puede ser algo "más segura". [En una situación como esa, podría inclinarme a investigar a través de la simulación.]

Glen_b -Reinstate a Monica
fuente
2
He leído en alguna parte de este documento que es bueno cuando α = 5 % . Pero no estoy seguro de que sea suficiente. n=30α=5%
Stéphane Laurent
1
@ StéphaneLaurent Para la mayoría de los propósitos, debería estar bien al 5%, pero tales juicios dependen mucho del individuo. Hay situaciones, me encontré con una solo hoy, donde ese nivel de error podría ser suficiente para importar.
Glen_b -Reinstale a Monica el
2
@ StéphaneLaurent Puede obtener una visión decente de Johnson, VE (2013). Normas revisadas para la evidencia estadística . Actas de la Academia Nacional de Ciencias , 110 (48): 19313–19317. Este artículo se inscribe en el del post ¿Por qué los resultados de investigaciones publicadas son falsas más crítica de la investigación ( a la Ciencia ¿Cómo va mal )
Alexis
44
@ StéphaneLaurent Su artículo responde a mi pregunta. Para el registro, una traducción aproximada de su conclusión: "El uso de la distribución normal como una aproximación a la distribución t de Student es exclusivamente el producto de las limitaciones tecnológicas del siglo XX. Estas limitaciones han desaparecido con el software estadístico moderno, y ya no existe cualquier razón para usar estas aproximaciones no conservadoras ".
Pertinax
2
@TheThunderChimp Advertencia: si se conoce la varianza de la población (por ejemplo, estimación de la proporción de la población - media de una variable dicotómica), entonces la normal estándar ( z ), y no la distribución t, es apropiada.
Alexis
7

Es un anacronismo histórico. Hay muchos de ellos en estadísticas.

Si no tenía una computadora, era difícil usar la distribución t y mucho más fácil usar una distribución normal. Una vez que el tamaño de la muestra aumenta, las dos distribuciones se vuelven similares (qué tan grande es 'grande' es otra cuestión).

Jeremy Miles
fuente
1
Esa parece una respuesta bastante superficial para una pregunta más profunda.
Alexis
2
No estoy seguro de lo que quieres decir. ¿No crees que esa es la razón? (La respuesta más votada hace el mismo punto, aunque de manera más elocuente y elaborada).
Jeremy Miles
1
Voté en contra porque tu respuesta me dice: Porque la historia. Breve recapitulación de su pregunta.
Alexis
2
Gracias por hacérmelo saber: es mejor que un voto anónimo anónimo del que no sabía el motivo.
Jeremy Miles
3
Históricamente, uno "utilizaba" estas distribuciones buscando valores en tablas. La única forma en que hubiera sido más fácil usar una distribución Normal habría sido que uno no tuviera que elegir la columna correspondiente a los grados de libertad. Eso es apenas una preocupación. Lo que limitó el uso fue que en algún momento tiene poco sentido expandir las tablas a grandes grados de libertad: los libros se volverían demasiado grandes.
whuber
1

ex2n

VictorZurkowski
fuente
1
¿En qué tamaños los errores numéricos en la estimación de t superan las ganancias de usarlo?
jona
2
seguramente puede calcular los valores t con una precisión arbitraria, por lo que pueden ser tan precisos como las cantidades con las que los compara.
Neil G
"En otras palabras, el valor t" exacto "no es" exacto ", y dentro del error de aproximación, el valor es el mismo que el valor CDF para la normal estándar". No estoy seguro de que esta sea una regla empírica confiable.
shadowtalker
2
25.9325×1016
1
Whuber, tienes razón. Usé "error numérico" incorrectamente. Me refería a todos los errores en el manejo de números: aproximación numérica de las integrales, errores numéricos para trabajar con precisión finita y errores numéricos debido al truncamiento. Si uno pudiera trabajar con precisión infinita, no habría justificación para reemplazar la distribución t por la normal
VictorZurkowski