He trazado esto después de hacer una prueba de normalidad de Shapiro-Wilk. La prueba mostró que es probable que la población se distribuya normalmente. Sin embargo, ¿cómo ver este "comportamiento" en esta trama?
ACTUALIZAR
Un histograma simple de los datos:
ACTUALIZAR
La prueba de Shapiro-Wilk dice:
Respuestas:
No; No lo demostró.
Las pruebas de hipótesis no le dicen qué tan probable es la anulación. De hecho, puedes apostar que este nulo es falso.
El gráfico QQ no da una fuerte indicación de no normalidad (el gráfico es bastante directo); quizás haya una cola izquierda ligeramente más corta de lo que cabría esperar, pero eso realmente no importará mucho
El histograma tal como está probablemente tampoco dice mucho; también insinúa una cola izquierda ligeramente más corta. Pero mira aquí
La distribución de la población de la que provienen sus datos no será exactamente normal. Sin embargo, el gráfico QQ muestra que la normalidad es probablemente una aproximación razonablemente buena.
Si el tamaño de la muestra no fuera demasiado pequeño, la falta de rechazo del Shapiro-Wilk probablemente estaría diciendo lo mismo.
Actualización: su edición para incluir el valor p real de Shapiro-Wilk es importante porque, de hecho, eso indicaría que rechazaría el valor nulo en niveles significativos típicos. Esa prueba indica que sus datos no se distribuyen normalmente y el sesgo leve indicado por las parcelas es probablemente lo que está recogiendo la prueba. Para los procedimientos típicos que pueden asumir la normalidad de la variable en sí (la prueba t de una muestra es la que viene a la mente), en lo que parece ser un tamaño de muestra bastante grande, esta leve no normalidad casi no tendrá consecuencias en todos: uno de los problemas con las pruebas de bondad de ajuste es que es más probable que rechacen solo cuando no importa (cuando el tamaño de la muestra es lo suficientemente grande como para detectar alguna no normalidad modesta); de manera similar, es más probable que no rechacen cuando más importa (cuando el tamaño de la muestra es pequeño).
fuente
Si los datos se distribuyen normalmente, los puntos en el gráfico QQ-normal se encuentran en una línea diagonal recta. Puede agregar esta línea a su gráfico QQ con el comando
qqline(x)
, dondex
está el vector de valores.Ejemplos de distribución normal y no normal:
Distribución normal
El gráfico QQ-normal con la línea:
Las desviaciones de la línea recta son mínimas. Esto indica distribución normal.
El histograma:
Distribución no normal (gamma)
La trama QQ-normal:
Los puntos claramente siguen otra forma que la línea recta.
El histograma confirma la no normalidad. La distribución no tiene forma de campana sino que está sesgada positivamente (es decir, la mayoría de los puntos de datos están en la mitad inferior). Los histogramas de distribuciones normales muestran la frecuencia más alta en el centro de la distribución.
fuente
qqPlot
función en elcar
paquete.Algunas herramientas para verificar la validez del supuesto de normalidad en R
fuente
Si bien es una buena idea verificar visualmente si su intuición coincide con el resultado de alguna prueba, no puede esperar que esto sea fácil cada vez. Si las personas que intentan detectar el Bosón de Higgs solo confiaran en sus resultados si pudieran evaluarlos visualmente, necesitarían un ojo muy agudo.
Especialmente con grandes conjuntos de datos (y, por lo tanto, generalmente con una potencia creciente), las estadísticas tienden a detectar las diferencias más pequeñas, incluso cuando son apenas perceptibles a simple vista.
Dicho esto: por normalidad, su diagrama QQ debe mostrar una línea recta: yo diría que no. Hay curvas claras en las colas, e incluso cerca del medio hay cierta conmoción. Visualmente, aún podría estar dispuesto a decir (dependiendo del objetivo de verificar la normalidad) estos datos son "razonablemente" normales.
Sin embargo, tenga en cuenta: para la mayoría de los propósitos en los que desea verificar la normalidad, solo necesita la normalidad de los medios en lugar de la normalidad de las observaciones, por lo que el teorema del límite central puede ser suficiente para rescatarlo. Además: aunque la normalidad es a menudo una suposición de que es necesario verificar "oficialmente", se ha demostrado que muchas pruebas son bastante insensibles a que esta suposición no se cumpla.
fuente
Me gusta la versión del 'auto' de la biblioteca 'R' porque proporciona no solo la tendencia central, sino también los intervalos de confianza. Brinda orientación visual para ayudar a confirmar si el comportamiento de los datos es consistente con la distribución hipotética.
algunos enlaces:
fuente