Estoy examinando una parte de mi conjunto de datos que contiene 46840 valores dobles que van del 1 al 1690 agrupados en dos grupos. Para analizar las diferencias entre estos grupos, comencé examinando la distribución de los valores para elegir la prueba correcta.
Siguiendo una guía sobre las pruebas de normalidad, hice un qqplot, histogram & boxplot.
Esto no parece ser una distribución normal. Dado que la guía dice de manera correcta que un examen puramente gráfico no es suficiente, también quiero probar la distribución para normalidad.
Teniendo en cuenta el tamaño del conjunto de datos y la limitación de la prueba de shapiro-wilks en R, ¿cómo se debe comprobar la normalidad de la distribución dada y teniendo en cuenta el tamaño del conjunto de datos, es esto incluso confiable? ( Ver respuesta aceptada a esta pregunta )
Editar:
La limitación de la prueba de Shapiro-Wilk a la que me refiero es que el conjunto de datos a probar está limitado a 5000 puntos. Para citar otra buena respuesta sobre este tema:
Un problema adicional con la prueba de Shapiro-Wilk es que cuando le proporciona más datos, las posibilidades de que se rechace la hipótesis nula se hacen más grandes. Entonces, lo que sucede es que para grandes cantidades de datos, incluso se pueden detectar desviaciones muy pequeñas de la normalidad, lo que lleva al rechazo del evento de hipótesis nula, aunque para fines prácticos, los datos son más que normales.
[...] Afortunadamente, shapiro.test protege al usuario del efecto descrito anteriormente al limitar el tamaño de los datos a 5000.
En cuanto a por qué estoy probando la distribución normal en primer lugar:
Algunas pruebas de hipótesis suponen una distribución normal de los datos. Quiero saber si puedo usar estas pruebas o no.
Respuestas:
No veo por qué te molestarías. Simplemente no es normal: en este caso, el examen gráfico me parece suficiente. Tienes muchas observaciones de lo que parece ser una buena distribución gamma limpia. Solo ve con eso. kolmogorov-smirnov si es necesario, recomendaré una distribución de referencia.
x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
hist(rgamma(46840,2.13,.0085))
boxplot(rgamma(46840,2.13,.0085))
fuente