Interpretación de la prueba de Shapiro-Wilk

29

Soy bastante nuevo en estadísticas y necesito tu ayuda.
Tengo una pequeña muestra, como sigue:

  H4U
  0.269
  0.357
  0.2
  0.221
  0.275
  0.277
  0.253
  0.127
  0.246

Ejecuté la prueba de Shapiro-Wilk usando R:

shapiro.test(precisionH4U$H4U)

y obtuve el siguiente resultado:

 W = 0.9502, p-value = 0.6921

Ahora, si supongo que el nivel de significancia a 0.05 que el valor p es mayor, entonces alfa (0.6921> 0.05) y no puedo rechazar la hipótesis nula sobre la distribución normal, pero ¿me permite decir que la muestra tiene una distribución normal? ?

¡Gracias!

Jakub
fuente

Respuestas:

28

No, no puede decir "la muestra tiene una distribución normal" o "la muestra proviene de una población que tiene una distribución normal", pero solo "no puede rechazar la hipótesis de que la muestra proviene de una población que tiene una distribución normal".

De hecho, la muestra no tiene una distribución normal (consulte el diagrama qq a continuación), pero no es de esperar que sea solo una muestra. La pregunta sobre la distribución de la población subyacente permanece abierta.

qqnorm( c(0.269, 0.357, 0.2, 0.221, 0.275, 0.277, 0.253, 0.127, 0.246) )

qqplot

Enrique
fuente
2
las miradas qqplot bastante como normal creo que ... puede intentar qqnorm(rnorm(9))varias veces ...
Curioso
2
@Tomas: Quizás sea mejor decir que "el qqplot parece que podría provenir de una población normal". En cambio, podría provenir de una distribución con colas más pesadas.
Henry
Sí, qqnorm(runif(9))puede producir resultados similares. Así que no podemos decir realmente nada ...
Curioso
¿Cuál es la diferencia entre "la muestra tiene una distribución normal" y "la muestra proviene de una población que tiene una distribución normal"?
auraham
1
Una distribución normal es una distribución continua sobre todos los reales. Una muestra (finita o incluso infinitamente contable) no puede tener este tipo de distribución en sí misma, incluso si proviene de una población que tiene esta distribución.
Henry
17

No rechazar una hipótesis nula es una indicación de que la muestra que tiene es demasiado pequeña para detectar cualquier desviación de la normalidad que tiene, pero su muestra es tan pequeña que probablemente no se detectarán desviaciones sustanciales de la normalidad.

Sin embargo, en la mayoría de los casos, una prueba de hipótesis no tiene sentido en la mayoría de los casos en los que las personas usan una prueba de normalidad, ya que realmente conoce la respuesta a la pregunta que está probando, la distribución de la población a partir de sus datos no será normal. . (Puede estar bastante cerca a veces, pero ¿es realmente normal?)

La pregunta que debería importarle no es "es la distribución de la que provienen de la normalidad" (no lo será). La pregunta que realmente debería importarle es más como '¿es la desviación de la normalidad que voy a afectar materialmente mis resultados?'. Si eso es potencialmente un problema, puede considerar un análisis que sea menos probable que tenga ese problema.

Glen_b -Reinstate a Monica
fuente
10

t

tt

Además, especulo que está buscando proporciones, en cuyo caso podría usar una distribución binomial si le preocupan las violaciones de los supuestos.

Si fue alguna otra preocupación lo que lo llevó a las pruebas de Shapiro, puede ignorar todo lo que acabo de decir.

Thomas Levine
fuente
Lo entendiste bien, quería saber si puedo usar la prueba t para mi muestra. ¡Gracias!
Jakub
4

Como Henry ya dijo, no puedes decir que es normal. Simplemente intente ejecutar el siguiente comando en R varias veces:

shapiro.test(runif(9)) 

Esto probará la muestra de 9 números de distribución uniforme. Muchas veces el valor p será mucho mayor que 0.05, lo que significa que no puede concluir que la distribución es normal.

Curioso
fuente
4

También estaba buscando cómo interpretar adecuadamente el valor de W en la prueba de Shapiro-Wilk y, según el artículo de Emil OW Kirkegaard "Los valores de W de la prueba de Shapiro-Wilk visualizados con diferentes conjuntos de datos " es muy difícil decir algo sobre la normalidad de un distribución mirando el valor W solo.

Como él dice en conclusión:

En general, vemos que dada una muestra grande, SW es ​​sensible a las desviaciones de la no normalidad. Si la salida es muy pequeña, sin embargo, no es muy importante.

También vemos que es difícil reducir el valor W incluso si uno lo intenta deliberadamente. Uno necesita probar una distribución extremadamente no normal para que caiga apreciablemente por debajo de .99.

Vea el artículo original para más información.

Denis Rasulev
fuente
1

Una cuestión importante no mencionada en la respuesta anterior son las limitaciones de la prueba:

La prueba tiene limitaciones, lo más importante es que la prueba tiene un sesgo por tamaño de muestra . Cuanto más grande sea la muestra, más probable será que obtenga un resultado estadísticamente significativo.

Para responder a la pregunta original (tamaño de muestra muy pequeño): vea los siguientes artículos sobre mejores alternativas, como la gráfica QQ y el histograma para este caso específico.

Stenemo
fuente