¿Es significativo probar la normalidad con un tamaño de muestra muy pequeño (p. Ej., N = 6)?

26

Tengo un tamaño de muestra de 6. En tal caso, ¿tiene sentido evaluar la normalidad con la prueba de Kolmogorov-Smirnov? Usé SPSS. Tengo un tamaño de muestra muy pequeño porque lleva tiempo obtener cada uno. Si no tiene sentido, ¿cuántas muestras es el número más bajo que tiene sentido analizar?

Nota: hice algunos experimentos relacionados con el código fuente. La muestra es el tiempo empleado para codificar en una versión de software (versión A) En realidad, tengo otro tamaño de muestra de 6, que es el tiempo empleado para codificar en otra versión de software (versión B)

Me gustaría hacer una prueba de hipótesis utilizando una prueba t de una muestra para probar si el tiempo empleado en la versión de código A es diferente del tiempo empleado en la versión de código B o no (este es mi H1). La condición previa de la prueba t de una muestra es que los datos que se van a probar tienen que distribuirse normalmente. Es por eso que necesito probar la normalidad.

BB01
fuente
66
Por mi parte, tengo dificultades para imaginar un contexto en el que n = 6 y la normalidad sean una hipótesis que valga la pena probar. Me temo que este es un caso de un usuario inexperto que realiza pruebas de hipótesis múltiples (ejecuta una regresión y luego prueba la normalidad de los residuos) y que estamos abordando los síntomas pero ignorando los esqueletos en el armario, por así decirlo.
usuario603
3
@usuario Es injusto especular sobre el interlocutor. Abordemos la pregunta, ¿de acuerdo? Entonces, suponga que planea calcular un límite de predicción superior para un valor que se utilizará para tomar una decisión costosa. El valor del PL será sensible a los supuestos de normalidad. Está bastante seguro de que el proceso de generación de datos no es normal, pero los datos son caros y su generación lleva mucho tiempo. Experimentos anteriores sugieren que será lo suficientemente potente como para rechazar la normalidad. (Acabo de describir un marco estándar para los programas de monitoreo de aguas subterráneas en los EE. UU.)norte=6 6
whuber
3
Usuario603 (re su primer comentario): Me gustaría señalar que @Joris no ha proporcionado una respuesta, ni su comentario está acompañado de ninguna justificación. Si un "no" enfático es una respuesta general válida a esta pregunta, veámoslo escrito como tal, con un argumento de apoyo, para que la comunidad pueda evaluarlo de arriba abajo.
whuber
2
@whuber: agregué un argumento para el enfático "no".
Joris Meys
1
@Joris Gracias! Eso es útil e iluminador.
whuber

Respuestas:

38

Sí.

Todas las pruebas de hipótesis tienen dos propiedades sobresalientes : su tamaño (o "nivel de significancia"), un número que está directamente relacionado con la confianza y las tasas de falsos positivos esperados, y su poder, que expresa la posibilidad de falsos negativos. Cuando los tamaños de muestra son pequeños y continúa insistiendo en un tamaño pequeño (alta confianza), la potencia empeora. Esto significa que las pruebas de muestra pequeña generalmente no pueden detectar diferencias pequeñas o moderadas. Pero todavía son significativos .

La prueba de KS evalúa si la muestra parece provenir de una distribución Normal. Una muestra de seis valores tendrá que parecer altamente no normal, de hecho, para reprobar esta prueba. Pero si lo hace, puede interpretar este rechazo del nulo exactamente como lo interpretaría con tamaños de muestra más altos. Por otro lado, si la prueba no puede rechazar la hipótesis nula, eso le dice poco, debido a la alta tasa de falsos negativos. En particular, sería relativamente arriesgado actuar como si la distribución subyacente fuera Normal.

Una cosa más a tener en cuenta aquí: algunos programas utilizan aproximaciones para calcular los valores p de las estadísticas de prueba. A menudo, estas aproximaciones funcionan bien para muestras de gran tamaño, pero actúan mal para muestras muy pequeñas. Cuando este es el caso, no puede confiar en que el valor p se haya calculado correctamente, lo que significa que no puede estar seguro de que se haya alcanzado el tamaño de prueba deseado. Para más detalles, consulte la documentación de su software.

Algunos consejos: la prueba KS es sustancialmente menos potente para probar la normalidad que otras pruebas específicamente construidas para este propósito. La mejor de ellas es probablemente la prueba de Shapiro-Wilk , pero otras de uso común y casi tan poderosas son Shapiro-Francia y Anderson-Darling .

Este gráfico muestra la distribución del estadístico de prueba de Kolmogorov-Smirnov en 10,000 muestras de seis variantes distribuidas normalmente:

Histograma de estadística KS

α=5 5%

0.000, 0.001, 0.002, 1.000, 1.001, 1000000

El estadístico de prueba es 0.5 (que es menor que el valor crítico). Tal muestra sería rechazada utilizando las otras pruebas de normalidad.

whuber
fuente
10
Creo que cualquier distribución que da un sig. el resultado con N = 6 será tan normal que pasará el IOTT con gran éxito: esa es la prueba de trauma interocular. Te golpea entre los ojos.
Peter Flom - Restablece a Monica
2
norte=6 6norte=6 6 sea ​​claramente no normal cuando se traza de manera razonable ( por ejemplo , la gráfica de probabilidad) pero no será rechazada por esta prueba.
whuber
Solo por diversión, intenté set.seed (3833782) x <- runif (6) ks.test (x, pnorm) Esto fue significativo en p = .04. Entonces puede suceder
Peter Flom - Restablecer a Monica
44
@Peter ¡Bien! Una prueba de normalidad KS ha rechazado una muestra uniforme. Eso es lo que uno espera.
whuber
3
set.seed(140);x=rnorm(6);ks.test(x,pnorm)produce p-value = 0.0003255. Por supuesto, tuve que probarlo con 140 semillas antes de encontrar esto ...
Spacedman
20

Como @whuber preguntó en los comentarios, una validación para mi NO categórico. editar: con la prueba shapiro, ya que la prueba ks de una muestra se usa de manera incorrecta. Whuber es correcto: para el uso correcto de la prueba de Kolmogorov-Smirnov, debe especificar los parámetros de distribución y no extraerlos de los datos. Sin embargo, esto es lo que se hace en paquetes estadísticos como SPSS para una prueba KS de una muestra.

Intenta decir algo sobre la distribución y desea verificar si puede aplicar una prueba t. Por lo tanto, esta prueba se realiza para confirmar que los datos no se apartan de la normalidad de manera suficientemente significativa como para invalidar los supuestos subyacentes del análisis. Por lo tanto, no le interesa el error tipo I, sino el error tipo II.

Ahora hay que definir "significativamente diferente" para poder calcular el mínimo n para una potencia aceptable (digamos 0.8). Con las distribuciones, eso no es sencillo de definir. Por lo tanto, no respondí la pregunta, ya que no puedo dar una respuesta sensata aparte de la regla general que uso: n> 15 yn <50. ¿Basado en qué? Básicamente se siente, así que no puedo defender esa elección aparte de la experiencia.

Pero sí sé que con solo 6 valores, su error tipo II está destinado a ser casi 1, lo que hace que su potencia sea cercana a 0. Con 6 observaciones, la prueba de Shapiro no puede distinguir entre una distribución normal, poisson, uniforme o incluso exponencial. Con un error tipo II casi 1, el resultado de su prueba no tiene sentido.

Para ilustrar las pruebas de normalidad con la prueba de shapiro:

shapiro.test(rnorm(6)) # test a the normal distribution
shapiro.test(rpois(6,4)) # test a poisson distribution
shapiro.test(runif(6,1,10)) # test a uniform distribution
shapiro.test(rexp(6,2)) # test a exponential distribution
shapiro.test(rlnorm(6)) # test a log-normal distribution

El único donde aproximadamente la mitad de los valores son menores que 0.05, es el último. Cuál es también el caso más extremo.


si quieres saber cuál es el mínimo n que te da el poder que te gusta con la prueba de shapiro, puedes hacer una simulación como esta:

results <- sapply(5:50,function(i){
  p.value <- replicate(100,{
    y <- rexp(i,2)
    shapiro.test(y)$p.value
  })
  pow <- sum(p.value < 0.05)/100
  c(i,pow)
})

que te da un análisis de poder como este:

ingrese la descripción de la imagen aquí

de lo cual concluyo que necesita aproximadamente un mínimo de 20 valores para distinguir una distribución exponencial de una distribución normal en el 80% de los casos.

trama de código:

plot(lowess(results[2,]~results[1,],f=1/6),type="l",col="red",
    main="Power simulation for exponential distribution",
    xlab="n",
    ylab="power"
)
Joris Meys
fuente
2
@whuber: con respecto a la lógica de la prueba de hipótesis en su cabeza: ¿en qué caso está interesado en la hipótesis alternativa? En todas las aplicaciones de estas pruebas que he visto, la gente está interesada en la confirmación del nulo: mis datos no difieren significativamente de una distribución normal. Por eso enfatizo el error tipo II.
Joris Meys
44
Vea mis comentarios al OP sobre el monitoreo del agua subterránea. Por lo general, las personas están interesadas en rechazar uno o ambos supuestos predeterminados: normalidad y lognormalidad. Debido a que esto se realiza bajo una estricta supervisión reguladora, no es suficiente una gráfica de probabilidad (que es una herramienta poderosa para profesionales experimentados de IOTT como @Peter Flom): se necesitan pruebas formales. Una aplicación similar ocurre en la evaluación de riesgos para la salud humana; Los documentos de orientación de la EPA de EE. UU. Contemplan específicamente las pruebas connorte tan bajo como 5 5. Ver epa.gov/oswer/riskassessment/pdf/ucl.pdf , por ejemplo .
whuber
44
Para volver al título: ¿tiene sentido probar la normalidad con muestras pequeñas? En algunos casos lo es, especialmente cuando se prueba con alternativas muy sesgadas. (SW tiene 80% de potencia ennorte=8 contra una alternativa LN (1,2), por ejemplo) Baja potencia contra muchas alternativas cuando nortees pequeño es algo que comparten las pruebas de normalidad, en un grado u otro, con cualquier prueba de hipótesis. Eso no impide su uso. Por lo tanto, un "no" no calificado es, por decirlo suavemente, injusto para la prueba. En términos más generales, sugiere que nunca deberíamos usar pruebas de hipótesis en muestras "pequeñas". Eso suena demasiado draconiano.
whuber
3
@whuber: Tendremos que aceptar diferir. No soy completamente fanático de las pautas de la EPA (y definitivamente no de la FDA). He visto esto abusado con demasiada frecuencia como para creer en su utilidad. El azar es algo extraño, y con solo 6 casos altamente impredecibles. No creo que pueda decir nada sobre una función compleja como un PDF basado en solo 6 observaciones. YMMV
Joris Meys
55
@ImAlso La prueba t puede tolerar mucha no normalidad si es bastante simétrica, pero no puede tolerar demasiada asimetría. (De hecho, una prueba de asimetría para la normalidad podría ser una mejor opción en el OP que la prueba KS, solo por esta razón). Esto señala una de las mayores diferencias entre las pruebas de bondad de ajuste y otras pruebas de hipótesis: hay una enorme espacio de posibles alternativas y las pruebas de GoF tienden a ser buenas contra algunas de ellas pero no contra otras. No puedes hacer que funcionen bien contra todas las alternativas.
whuber
-2

La pregunta planteada aquí tiene una idea errónea de por qué se requiere la verificación de Normalidad para un tamaño de muestra de 6. Aquí el objetivo principal es "probar si el tiempo empleado en la versión de código A es diferente del tiempo empleado en la versión de código B o no ( Este es mi H1) ". Cuando se usa la palabra "diferir", ¿es una prueba de cola? Sin embargo, la prueba de normalidad es un segundo paso. El primer paso es verificar la adecuación de la potencia predeterminada (1-β) de la prueba para un tamaño de muestra dado cuando la potencia es muy mala, ¿para qué sirve probar la condición de normalidad? La comprobación de la condición de normalidad nos ayudará a decidir si realizar una prueba paramétrica o no paramétrica. Si el tamaño de su muestra no tiene la potencia adecuada, ¿por qué debería pensar en la prueba de Normalidad?

usuario202344
fuente
(-1) Esto no está muy claro. Lea esta página sobre cómo responder preguntas: stats.stackexchange.com/help/how-to-answer
mkt - Reinstale Monica