La gráfica QQ parece normal pero la prueba de Shapiro-Wilk dice lo contrario

12

En R, tengo una muestra de 348 medidas, y quiero saber si puedo asumir que normalmente se distribuye para futuras pruebas.

Básicamente, siguiendo otra respuesta de Stack , estoy mirando el gráfico de densidad y el gráfico QQ con:

plot(density(Clinical$cancer_age))

ingrese la descripción de la imagen aquí

qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)

ingrese la descripción de la imagen aquí

No tengo una gran experiencia en estadística, pero parecen ejemplos de distribuciones normales que he visto.

Luego estoy ejecutando la prueba Shapiro-Wilk:

shapiro.test(Clinical$cancer_age)

> Shapiro-Wilk normality test

data:  Clinical$cancer_age
W = 0.98775, p-value = 0.004952

Si lo interpreto correctamente, me dice que es seguro rechazar la hipótesis nula, que es que la distribución es normal.

Sin embargo, me he encontrado con dos publicaciones de Stack ( aquí y aquí ), que socavan fuertemente la utilidad de esta prueba. Parece que si la muestra es grande (¿se considera 348 como grande?), Siempre dirá que la distribución no es normal.

¿Cómo debo interpretar todo eso? ¿Debo seguir con el gráfico QQ y asumir que mi distribución es normal?

francoiskroll
fuente
44
La gráfica qq parece mostrar una desviación de lo normal en las colas. Además, cualquier prueba útil de bondad de ajuste se rechazará en muestras muy grandes simplemente porque se detectarán pequeñas desviaciones de la normalidad. No es una crítica de la prueba de Shapiro-Wilk, sino una característica de la prueba de bondad de ajuste.
Michael R. Chernick
44
¿Por qué es importante para usted asumir una distribución normal? ¿Qué piensa hacer en base a esa suposición?
Roland
66
Solo para agregar a los comentarios de Roland, muchas pruebas que suponen formalmente una distribución normal en realidad son bastante robustas con ligeras desviaciones de la normalidad (por ejemplo, porque la distribución de la estadística de prueba es asintóticamente correcta). Si puede dar más detalles sobre lo que pretende hacer, puede obtener respuestas más útiles.
P.Windridge
1
@mdewey, observación aguda! No es la edad en la incidencia, sino la "edad" del tumor medida por la metilación del ADN.
francoiskroll
2
Creo que valdría la pena examinar la pequeña cantidad de observaciones extremas solo para verificar si son errores de medición.
mdewey

Respuestas:

11

No tienes ningún problema aquí. Sus datos pueden ser ligeramente no normales, pero es lo suficientemente normal como para que no presente ningún problema. Muchos investigadores realizan pruebas estadísticas asumiendo la normalidad con datos mucho menos normales que los que tiene.

Confiaría en tus ojos. Los gráficos de densidad y QQ parecen razonables, a pesar de un ligero sesgo positivo en las colas. En mi opinión, no necesita preocuparse por la no normalidad de estos datos.

Tiene un N de aproximadamente 350 y los valores p dependen mucho de los tamaños de muestra. Con una muestra grande, casi cualquier cosa puede ser significativa. Esto ha sido discutido aquí.

Hay algunas respuestas increíbles en esta publicación muy popular que básicamente llega a la conclusión de que realizar una prueba de significación de hipótesis nula para la no normalidad es "esencialmente inútil". La respuesta aceptada en esa publicación es una demostración fabulosa de que, incluso cuando los datos se generaron a partir de un proceso casi gaussiano, un tamaño de muestra lo suficientemente alto hace que la prueba no normal sea significativa.


Lo siento, me di cuenta de que estaba vinculado a una publicación que había mencionado en su pregunta original. Sin embargo, mi conclusión sigue en pie: sus datos no son tan no normales como para plantear problemas.

Mark White
fuente
El hecho de que algunos investigadores sean muy descuidados no significa que puedas ser un poco descuidado :). Sin embargo estoy de acuerdo con que muchas pruebas estadísticas que asumen formalmente la normalidad son en realidad bastante tolerante con lo que alimentar a la
P.Windridge
2
"El hecho de que algunos investigadores sean muy descuidados no significa que puedas ser un poco descuidado :)" Punto justo; Ese fue un mal argumento de mi parte. "Sin embargo, estoy de acuerdo con que muchas pruebas estadísticas que asumen formalmente la normalidad son bastante tolerantes con lo que les das de comer". Si, de hecho. Cualquier profesor cuántico que he tenido ha mirado tramas de QQ como esta y dijo: "Sí, está bien".
Mark White
4

Su distribución no es normal. Mira las colas (o la falta de ellas). A continuación se muestra lo que esperaría de un gráfico QQ normal.

ingrese la descripción de la imagen aquí

Consulte esta publicación sobre cómo interpretar varios gráficos QQ.

Tenga en cuenta que si bien una distribución puede no ser técnicamente normal, puede ser lo suficientemente normal como para calificar para algoritmos que requieren normalidad.

compensación
fuente
1
De qué estás hablando, ejecuté 9 parcelas qq normales que forman muestras directamente forman una distribución normal usando el código set.seed (100) par (mfrow = c (3,3)) para (i en 1: 9) {x < - rnorm (350) qqnorm (x) qqline (x)} y plot (3,2) se parecen mucho a la situación de OP.
Josh
1
Por lo general, no desea centrarse en las colas porque a menudo serán extrañas, aunque las colas extremadamente malas le darán malos resultados. Realmente quieres concentrarte en el medio.
Josh
eres incorrecto Josh. recurra a una prueba normal para verificar si se rechaza la hipótesis nula de normalidad.
reparación
1
Tienes razón. Inicialmente leí tu publicación ya que las parcelas qq no eran lo suficientemente normales, y me disculpo.
Josh
2
@ Josh, el medio de la distribución apenas importa para las pruebas de hipótesis; Son las colas las que importan. Tienes eso al revés.
gung - Restablece a Monica