En R, tengo una muestra de 348 medidas, y quiero saber si puedo asumir que normalmente se distribuye para futuras pruebas.
Básicamente, siguiendo otra respuesta de Stack , estoy mirando el gráfico de densidad y el gráfico QQ con:
plot(density(Clinical$cancer_age))
qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)
No tengo una gran experiencia en estadística, pero parecen ejemplos de distribuciones normales que he visto.
Luego estoy ejecutando la prueba Shapiro-Wilk:
shapiro.test(Clinical$cancer_age)
> Shapiro-Wilk normality test
data: Clinical$cancer_age
W = 0.98775, p-value = 0.004952
Si lo interpreto correctamente, me dice que es seguro rechazar la hipótesis nula, que es que la distribución es normal.
Sin embargo, me he encontrado con dos publicaciones de Stack ( aquí y aquí ), que socavan fuertemente la utilidad de esta prueba. Parece que si la muestra es grande (¿se considera 348 como grande?), Siempre dirá que la distribución no es normal.
¿Cómo debo interpretar todo eso? ¿Debo seguir con el gráfico QQ y asumir que mi distribución es normal?
fuente
Respuestas:
No tienes ningún problema aquí. Sus datos pueden ser ligeramente no normales, pero es lo suficientemente normal como para que no presente ningún problema. Muchos investigadores realizan pruebas estadísticas asumiendo la normalidad con datos mucho menos normales que los que tiene.
Confiaría en tus ojos. Los gráficos de densidad y QQ parecen razonables, a pesar de un ligero sesgo positivo en las colas. En mi opinión, no necesita preocuparse por la no normalidad de estos datos.
Tiene un N de aproximadamente 350 y los valores p dependen mucho de los tamaños de muestra. Con una muestra grande, casi cualquier cosa puede ser significativa. Esto ha sido discutido aquí.
Hay algunas respuestas increíbles en esta publicación muy popular que básicamente llega a la conclusión de que realizar una prueba de significación de hipótesis nula para la no normalidad es "esencialmente inútil". La respuesta aceptada en esa publicación es una demostración fabulosa de que, incluso cuando los datos se generaron a partir de un proceso casi gaussiano, un tamaño de muestra lo suficientemente alto hace que la prueba no normal sea significativa.
Lo siento, me di cuenta de que estaba vinculado a una publicación que había mencionado en su pregunta original. Sin embargo, mi conclusión sigue en pie: sus datos no son tan no normales como para plantear problemas.
fuente
Su distribución no es normal. Mira las colas (o la falta de ellas). A continuación se muestra lo que esperaría de un gráfico QQ normal.
Consulte esta publicación sobre cómo interpretar varios gráficos QQ.
Tenga en cuenta que si bien una distribución puede no ser técnicamente normal, puede ser lo suficientemente normal como para calificar para algoritmos que requieren normalidad.
fuente