Prueba T para no normal cuando N> 50?

Respuestas:

83

Suposición de normalidad de una prueba t

Considere una gran población de la que podría tomar muchas muestras diferentes de un tamaño particular. (En un estudio en particular, generalmente recolecta solo una de estas muestras).

La prueba t supone que las medias de las diferentes muestras se distribuyen normalmente; no supone que la población esté distribuida normalmente.

Según el teorema del límite central, las medias de las muestras de una población con varianza finita se aproximan a una distribución normal independientemente de la distribución de la población. Las reglas generales dicen que las medias muestrales están básicamente distribuidas normalmente siempre que el tamaño de la muestra sea al menos 20 o 30. Para que una prueba t sea válida en una muestra de menor tamaño, la distribución de la población debería ser aproximadamente normal.

La prueba t no es válida para muestras pequeñas de distribuciones no normales, pero es válida para muestras grandes de distribuciones no normales.

Pequeñas muestras de distribuciones no normales

Como señala Michael a continuación, el tamaño de la muestra necesario para la distribución de los medios para aproximar la normalidad depende del grado de no normalidad de la población. Para distribuciones aproximadamente normales, no necesitará una muestra tan grande como una distribución muy no normal.

Aquí hay algunas simulaciones que puede ejecutar en R para tener una idea de esto. Primero, aquí hay un par de distribuciones de población.

curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom

A continuación se presentan algunas simulaciones de muestras de las distribuciones de población. En cada una de estas líneas, "10" es el tamaño de la muestra, "100" es el número de muestras y la función posterior especifica la distribución de la población. Producen histogramas de las medias muestrales.

hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Para que una prueba t sea válida, estos histogramas deben ser normales.

require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Utilidad de una prueba t

Tengo que tener en cuenta que todo el conocimiento que acabo de impartir es algo obsoleto; ahora que tenemos computadoras, podemos hacerlo mejor que las pruebas t. Como señala Frank, es probable que desee utilizar las pruebas de Wilcoxon en cualquier lugar donde le enseñaron a ejecutar una prueba t.

Thomas Levine
fuente
77
Buena explicación (+1). Sin embargo, agregaría que el tamaño de muestra necesario para la distribución de los medios para aproximar la normalidad depende del grado de no normalidad de la población. Para muestras grandes, no hay razón para preferir una prueba t sobre una prueba de permutaciones que no haga suposiciones sobre las distribuciones.
Michael Lew
2
+1 aunque, hasta donde yo sé, la prueba t es bastante resistente a las desviaciones moderadas de la normalidad. Además, una discusión relacionada interesante: stats.stackexchange.com/questions/2492/…
nico
44
buena respuesta, aunque hay un pequeño detalle que se perdió: la distribución de los datos debe tener una variación finita. La prueba T es inútil para comparar la diferencia en la ubicación de dos distribuciones de Cauchy (o estudiantes con 2 grados de libertad), no porque sea "no robusta", sino porque para estas distribuciones hay información adicional relevante en la muestra más allá de las medias y desviaciones estándar que la prueba t desecha.
probabilityislogic
2
Además de esto, la prueba t también produce naturalmente intervalos de confianza para el parámetro que se investiga. (todavía voté a favor debido a los dos primeros párrafos que abordan la pregunta directamente, simplemente estoy en desacuerdo con el tercero)
Erik
77
La prueba t requiere la normalidad de la población. Esa es una suposición necesaria para que la estadística t tenga una distribución t-Student. Si no tiene una población normal, no puede expresar el estadístico t como una variable normal estándar dividida por la raíz de una variable Chi-cuadrado dividida por sus grados de libertad. Quizás lo que está tratando de decir es que si algunas condiciones son ciertas, como no demasiada asimetría o una gran muestra, la prueba aún puede ser válida incluso cuando la población no es normal.
toneloy
44

El teorema del límite central es menos útil de lo que uno podría pensar en este contexto. Primero, como alguien ya señaló, uno no sabe si el tamaño actual de la muestra es "suficientemente grande". En segundo lugar, el CLT se trata más de lograr el error de tipo I deseado que del error de tipo II. En otras palabras, la prueba t puede ser poco competitiva en cuanto a potencia. Es por eso que la prueba de Wilcoxon es tan popular. Si la normalidad se mantiene, es 95% tan eficiente como la prueba t. Si la normalidad no se mantiene, puede ser arbitrariamente más eficiente que la prueba t.

Frank Harrell
fuente
77
(+1) Bienvenido al sitio, que me alegro de que hayas encontrado. Espero su participación aquí.
cardenal
44
(+1) Buen punto sobre el Wilcoxon.
whuber
18

Vea mi respuesta anterior a una pregunta sobre la solidez de la prueba t .

En particular, recomiendo jugar con el applet onlinestatsbook .

La imagen a continuación se basa en el siguiente escenario:

  • hipótesis nula es cierta
  • asimetría bastante severa
  • misma distribución en ambos grupos
  • misma varianza en ambos grupos
  • tamaño de muestra por grupo 5 (es decir, mucho menos de 50 según su pregunta)
  • Presioné el botón de 10,000 simulaciones aproximadamente 100 veces para obtener más de un millón de simulaciones.

La simulación obtenida sugiere que en lugar de obtener un 5% de errores de Tipo I, solo obtenía un 4,5% de errores de Tipo I.

Si considera que esto es robusto depende de su perspectiva.

ingrese la descripción de la imagen aquí

Jeromy Anglim
fuente
44
+1 buenos puntos. Sin embargo, el poder de la prueba t con alternativas asimétricas puede degradarse severamente (hasta el punto de que es esencialmente cero incluso para tamaños de efectos enormes).
whuber
6

En mi experiencia con solo la prueba t de una muestra, he descubierto que la distorsión de las distribuciones es más importante que la curtosis, por ejemplo. Para distribuciones no asimétricas pero de cola gruesa (con 5 grados de libertad, una distribución Tukey h con , etc.), he encontrado que 40 muestras siempre han sido suficientes para obtener una tasa empírica de tipo I cercana a la nominal . Sin embargo, cuando la distribución está muy sesgada, es posible que necesite muchas más muestras.h=0.24999

Por ejemplo, suponga que estaba jugando a la lotería. Con probabilidad ganará 100 mil dólares, y con probabilidad perderá un dólar. Si realiza una prueba t para el valor nulo de que el rendimiento medio es cero basado en una muestra de mil sorteos de este proceso, no creo que vaya a lograr la tasa nominal de tipo I. 1 - pp=1041p

edit : duh, según la captura de @ whuber en el comentario, el ejemplo que di no tenía media cero, por lo que probar la media cero no tiene nada que ver con la tasa de tipo I.

Debido a que el ejemplo de la lotería a menudo tiene una desviación estándar de muestra de cero, la prueba t se ahoga. Entonces, en cambio, doy un ejemplo de código usando la distribución Lambert W x Gaussian de Goerg . La distribución que uso aquí tiene un sesgo de alrededor de 1355.

#hey look! I'm learning R!
library(LambertW)

Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)

test_ttest <- function(sampsize) {
    samp <- LW.Gauss$rY(params)(n=sampsize)
    tval <- t.test(samp, mu = moms$mean)
    return(tval$p.value)
}

#to replicate randomness
set.seed(1)

pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

p    vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

Este código proporciona la tasa de rechazo empírico en el nivel nominal de 0.05 para diferentes tamaños de muestra. Para una muestra de tamaño 50, la tasa empírica es 0.40 (!); para tamaño de muestra 250, 0,29; para tamaño de muestra 1000, 0,21; para tamaño de muestra 2000, 0,18. Claramente, la prueba t de una muestra sufre sesgo.

shabbychef
fuente
p=0
1

El teorema del límite central establece (bajo las condiciones requeridas) que el numerador del estadístico t es asintóticamente normal. La estadística t también tiene un denominador. Para tener una distribución t, necesitaría que el denominador sea independiente y raíz cuadrada de un chi-cuadrado-en-su-df.

Y sabemos que no será independiente (¡eso caracteriza a lo normal!)

El teorema de Slutsky combinado con el CLT le daría a usted que el estadístico t es asintóticamente normal (pero no necesariamente a una tasa muy útil).

¿Qué teorema establecería que la estadística t está aproximadamente distribuida en t cuando no hay normalidad, y qué tan rápido entra? (Por supuesto, eventualmente el t- también se acercará a lo normal, pero estamos asumiendo que la aproximación a otra aproximación será mejor que simplemente usar la aproximación normal ...)


t

n

Glen_b
fuente
3
xi+xjxixjcov(xi+xj,xixj)=var(xi)var(xj)+cov(xi,xj)cov(xj,xi)=0var(xi)=var(xj)
1
Desafortunadamente, la distinción entre no correlacionado e independiente es relevante si queremos terminar con una distribución t.
Glen_b
0

Sí, el Teorema del límite central nos dice que esto es cierto. Siempre que evite los rasgos de cola extremadamente pesada, la no normalidad no presenta problemas en muestras de moderadas a grandes.

Aquí hay un útil documento de revisión;

http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546

La prueba de Wilcoxon (mencionada por otros) puede tener un poder terrible cuando la alternativa no es un cambio de ubicación de la distribución original. Además, la forma en que mide las diferencias entre distribuciones no es transitiva.

huésped
fuente
Puntos interesantes sobre el Wilcoxon. Sin embargo, la prueba t tiene dificultades similares: es especialmente mala para detectar cambios que van acompañados de una mayor variación. La parte sobre transitividad parece ser principalmente una curiosidad en el contexto actual; Es difícil ver cómo es relevante para la prueba de hipótesis original o su interpretación. (Pero tal vez intransitividad podría llegar a ser importante en un entorno de ANOVA o múltiples comparaciones.)
whuber
La prueba t de varianza desigual (que es la predeterminada en algunos programas) no tiene el problema de la heterocedasticidad.
invitado
En cuanto a transitividad; informar las medias de la muestra, o las diferencias en las medias (lo cual es natural usando un enfoque de prueba t) le da al lector algo que puede considerar al tomar muestras de otras poblaciones. La no transitividad de la prueba de Wilcoxon significa que este enfoque no tiene dicho análogo; El uso de rangos de datos es un enfoque muy limitado.
invitado
1
(1) La prueba Satterthwaite-Welch (varianza desigual) no supera la pérdida de potencia a la que me referí (aunque puede ayudar un poco). (2) Creo que estás siendo extremo al caracterizar el uso de rangos como "limitados". En su respuesta, @Frank Harrell se refería a estudios que mostraban cómo la prueba de Wilcoxon mantiene una alta eficiencia en muchos entornos: esto demuestra cómo usar los rangos es efectivo y más flexible, no más limitado, en comparación con las pruebas t.
whuber
(1) No, pero proporciona la tasa de error Tipo I correcta, en muestras de moderadas a grandes (2) Gracias, pero estoy respetuosamente en desacuerdo. El uso de pruebas t sobre Wilcoxon hace que sea mucho más fácil cerrar la brecha entre las pruebas y el uso de intervalos de confianza. Si uno solo quiere hacer pruebas y nunca mira más allá de los dos grupos en un estudio, Wilcoxon, por supuesto, tiene situaciones en las que funciona bien. Pero a menudo no queremos hacer solo pruebas, y queremos ayudar a los usuarios a generalizar los resultados a otras situaciones; La prueba de Wilcoxon no es útil.
invitado
0

Sobre el uso de la prueba de Wilcoxon-Mann-Whitney como alternativa, recomiendo el estudio La prueba de Wilcoxon-Man-Whitney bajo escrutinio

Como prueba de medias o medianas, la prueba de Wilcoxon-Mann-Whitney (WMW) puede ser severamente no robusta para las desviaciones del modelo de turno puro.

Estas son las recomendaciones de los autores del artículo:

La transformación de rango puede alterar las medias, las desviaciones estándar y las asimetrías de las dos muestras de manera diferente. La única situación en la que se garantiza que la transformación de rango logre un efecto beneficioso es cuando las distribuciones son idénticas y los tamaños de muestra son iguales. Para las desviaciones de estos supuestos bastante estrictos, los efectos de la transformación de rango en los momentos de muestra son impredecibles. En el estudio de simulación del trabajo, la prueba WMW se comparó con la prueba Fligner-Policello (FP), la prueba Brunner-Munzel (BM), la prueba T de dos muestras (T), la prueba U de Welch (U), y la prueba Welch U en rangos (RU). Las cuatro pruebas basadas en el rango (WMW, FP, BM y RU) tuvieron un desempeño similar, aunque la prueba de BM fue con frecuencia un poco mejor que las otras. Cuando los tamaños de muestra eran iguales, Las pruebas paramétricas (T y U) fueron superiores a las pruebas basadas en rangos bajo la hipótesis nula de medias iguales, pero no bajo la hipótesis nula de medianas iguales. Cuando los tamaños de muestra eran desiguales, las pruebas de BM, RU y U tuvieron el mejor rendimiento. Para varios entornos, pequeños cambios en las propiedades de la población condujeron a grandes alteraciones en el desempeño de las pruebas. En resumen, la prueba WMW aproximada de muestra grande puede ser un método pobre para comparar las medias o medianas de dos poblaciones, a menos que las dos distribuciones tengan formas y escalas iguales. Este problema también parece aplicarse en varios grados a la prueba exacta de WMW, la prueba FP, la prueba BM y la prueba Welch U en los rangos. Al usar la prueba WMW, los autores recomiendan que las propiedades de las muestras clasificadas se investiguen a fondo para detectar signos de asimetría y heterogeneidad de varianza.

usuario2310909
fuente