Hace mucho tiempo aprendí que era necesaria una distribución normal para usar una prueba T de dos muestras. Hoy un colega me dijo que aprendió que para N> 50 la distribución normal no era necesaria. ¿Es eso cierto?
Si es cierto, ¿eso se debe al teorema del límite central?
Respuestas:
Suposición de normalidad de una prueba t
Considere una gran población de la que podría tomar muchas muestras diferentes de un tamaño particular. (En un estudio en particular, generalmente recolecta solo una de estas muestras).
La prueba t supone que las medias de las diferentes muestras se distribuyen normalmente; no supone que la población esté distribuida normalmente.
Según el teorema del límite central, las medias de las muestras de una población con varianza finita se aproximan a una distribución normal independientemente de la distribución de la población. Las reglas generales dicen que las medias muestrales están básicamente distribuidas normalmente siempre que el tamaño de la muestra sea al menos 20 o 30. Para que una prueba t sea válida en una muestra de menor tamaño, la distribución de la población debería ser aproximadamente normal.
La prueba t no es válida para muestras pequeñas de distribuciones no normales, pero es válida para muestras grandes de distribuciones no normales.
Pequeñas muestras de distribuciones no normales
Como señala Michael a continuación, el tamaño de la muestra necesario para la distribución de los medios para aproximar la normalidad depende del grado de no normalidad de la población. Para distribuciones aproximadamente normales, no necesitará una muestra tan grande como una distribución muy no normal.
Aquí hay algunas simulaciones que puede ejecutar en R para tener una idea de esto. Primero, aquí hay un par de distribuciones de población.
A continuación se presentan algunas simulaciones de muestras de las distribuciones de población. En cada una de estas líneas, "10" es el tamaño de la muestra, "100" es el número de muestras y la función posterior especifica la distribución de la población. Producen histogramas de las medias muestrales.
Para que una prueba t sea válida, estos histogramas deben ser normales.
Utilidad de una prueba t
Tengo que tener en cuenta que todo el conocimiento que acabo de impartir es algo obsoleto; ahora que tenemos computadoras, podemos hacerlo mejor que las pruebas t. Como señala Frank, es probable que desee utilizar las pruebas de Wilcoxon en cualquier lugar donde le enseñaron a ejecutar una prueba t.
fuente
El teorema del límite central es menos útil de lo que uno podría pensar en este contexto. Primero, como alguien ya señaló, uno no sabe si el tamaño actual de la muestra es "suficientemente grande". En segundo lugar, el CLT se trata más de lograr el error de tipo I deseado que del error de tipo II. En otras palabras, la prueba t puede ser poco competitiva en cuanto a potencia. Es por eso que la prueba de Wilcoxon es tan popular. Si la normalidad se mantiene, es 95% tan eficiente como la prueba t. Si la normalidad no se mantiene, puede ser arbitrariamente más eficiente que la prueba t.
fuente
Vea mi respuesta anterior a una pregunta sobre la solidez de la prueba t .
En particular, recomiendo jugar con el applet onlinestatsbook .
La imagen a continuación se basa en el siguiente escenario:
La simulación obtenida sugiere que en lugar de obtener un 5% de errores de Tipo I, solo obtenía un 4,5% de errores de Tipo I.
Si considera que esto es robusto depende de su perspectiva.
fuente
En mi experiencia con solo la prueba t de una muestra, he descubierto que la distorsión de las distribuciones es más importante que la curtosis, por ejemplo. Para distribuciones no asimétricas pero de cola gruesa (con 5 grados de libertad, una distribución Tukey h con , etc.), he encontrado que 40 muestras siempre han sido suficientes para obtener una tasa empírica de tipo I cercana a la nominal . Sin embargo, cuando la distribución está muy sesgada, es posible que necesite muchas más muestras.h=0.24999
Por ejemplo, suponga que estaba jugando a la lotería. Con probabilidad ganará 100 mil dólares, y con probabilidad perderá un dólar. Si realiza una prueba t para el valor nulo de que el rendimiento medio esp=10−4 1−p
cerobasado en una muestra de mil sorteos de este proceso, no creo que vaya a lograr la tasa nominal de tipo I. 1 - pedit : duh, según la captura de @ whuber en el comentario, el ejemplo que di no tenía media cero, por lo que probar la media cero no tiene nada que ver con la tasa de tipo I.
Debido a que el ejemplo de la lotería a menudo tiene una desviación estándar de muestra de cero, la prueba t se ahoga. Entonces, en cambio, doy un ejemplo de código usando la distribución Lambert W x Gaussian de Goerg . La distribución que uso aquí tiene un sesgo de alrededor de 1355.
Este código proporciona la tasa de rechazo empírico en el nivel nominal de 0.05 para diferentes tamaños de muestra. Para una muestra de tamaño 50, la tasa empírica es 0.40 (!); para tamaño de muestra 250, 0,29; para tamaño de muestra 1000, 0,21; para tamaño de muestra 2000, 0,18. Claramente, la prueba t de una muestra sufre sesgo.
fuente
El teorema del límite central establece (bajo las condiciones requeridas) que el numerador del estadístico t es asintóticamente normal. La estadística t también tiene un denominador. Para tener una distribución t, necesitaría que el denominador sea independiente y raíz cuadrada de un chi-cuadrado-en-su-df.
Y sabemos que no será independiente (¡eso caracteriza a lo normal!)
El teorema de Slutsky combinado con el CLT le daría a usted que el estadístico t es asintóticamente normal (pero no necesariamente a una tasa muy útil).
¿Qué teorema establecería que la estadística t está aproximadamente distribuida en t cuando no hay normalidad, y qué tan rápido entra? (Por supuesto, eventualmente el t- también se acercará a lo normal, pero estamos asumiendo que la aproximación a otra aproximación será mejor que simplemente usar la aproximación normal ...)
fuente
Sí, el Teorema del límite central nos dice que esto es cierto. Siempre que evite los rasgos de cola extremadamente pesada, la no normalidad no presenta problemas en muestras de moderadas a grandes.
Aquí hay un útil documento de revisión;
http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546
La prueba de Wilcoxon (mencionada por otros) puede tener un poder terrible cuando la alternativa no es un cambio de ubicación de la distribución original. Además, la forma en que mide las diferencias entre distribuciones no es transitiva.
fuente
Sobre el uso de la prueba de Wilcoxon-Mann-Whitney como alternativa, recomiendo el estudio La prueba de Wilcoxon-Man-Whitney bajo escrutinio
Como prueba de medias o medianas, la prueba de Wilcoxon-Mann-Whitney (WMW) puede ser severamente no robusta para las desviaciones del modelo de turno puro.
Estas son las recomendaciones de los autores del artículo:
La transformación de rango puede alterar las medias, las desviaciones estándar y las asimetrías de las dos muestras de manera diferente. La única situación en la que se garantiza que la transformación de rango logre un efecto beneficioso es cuando las distribuciones son idénticas y los tamaños de muestra son iguales. Para las desviaciones de estos supuestos bastante estrictos, los efectos de la transformación de rango en los momentos de muestra son impredecibles. En el estudio de simulación del trabajo, la prueba WMW se comparó con la prueba Fligner-Policello (FP), la prueba Brunner-Munzel (BM), la prueba T de dos muestras (T), la prueba U de Welch (U), y la prueba Welch U en rangos (RU). Las cuatro pruebas basadas en el rango (WMW, FP, BM y RU) tuvieron un desempeño similar, aunque la prueba de BM fue con frecuencia un poco mejor que las otras. Cuando los tamaños de muestra eran iguales, Las pruebas paramétricas (T y U) fueron superiores a las pruebas basadas en rangos bajo la hipótesis nula de medias iguales, pero no bajo la hipótesis nula de medianas iguales. Cuando los tamaños de muestra eran desiguales, las pruebas de BM, RU y U tuvieron el mejor rendimiento. Para varios entornos, pequeños cambios en las propiedades de la población condujeron a grandes alteraciones en el desempeño de las pruebas. En resumen, la prueba WMW aproximada de muestra grande puede ser un método pobre para comparar las medias o medianas de dos poblaciones, a menos que las dos distribuciones tengan formas y escalas iguales. Este problema también parece aplicarse en varios grados a la prueba exacta de WMW, la prueba FP, la prueba BM y la prueba Welch U en los rangos. Al usar la prueba WMW, los autores recomiendan que las propiedades de las muestras clasificadas se investiguen a fondo para detectar signos de asimetría y heterogeneidad de varianza.
fuente