Aprendí que debo comprobar la normalidad no en los datos en bruto sino en sus residuos. ¿Debo calcular los residuos y luego hacer la prueba W de Shapiro-Wilk?
¿Los residuos se calculan como: ?
Consulte esta pregunta anterior para mis datos y el diseño.
Respuestas:
¿Por qué debes probar la normalidad?
La suposición estándar en la regresión lineal es que los residuos teóricos son independientes y normalmente distribuidos. Los residuales observados son una estimación de los residuales teóricos, pero no son independientes (hay transformaciones en los residuales que eliminan parte de la dependencia, pero aún dan solo una aproximación de los residuales verdaderos). Por lo tanto, una prueba en los residuos observados no garantiza que los residuos teóricos coincidan.
Si los residuos teóricos no se distribuyen exactamente de manera normal, pero el tamaño de la muestra es lo suficientemente grande, entonces el Teorema del límite central dice que la inferencia habitual (pruebas e intervalos de confianza, pero no necesariamente intervalos de predicción) basada en el supuesto de normalidad seguirá siendo aproximadamente correcta. .
También tenga en cuenta que las pruebas de normalidad son pruebas descartadas, pueden decirle que es poco probable que los datos provengan de una distribución normal. Pero si la prueba no es significativa, eso no significa que los datos provienen de una distribución normal, también podría significar que simplemente no tiene suficiente potencia para ver la diferencia. Los tamaños de muestra más grandes dan más poder para detectar la no normalidad, pero las muestras más grandes y el CLT significan que la no normalidad es menos importante. Entonces, para tamaños de muestra pequeños, la suposición de normalidad es importante, pero las pruebas no tienen sentido, para tamaños de muestra grandes las pruebas pueden ser más precisas, pero la cuestión de la normalidad exacta deja de tener sentido.
Entonces, combinando todo lo anterior, lo que es más importante que una prueba de normalidad exacta es la comprensión de la ciencia detrás de los datos para ver si la población está lo suficientemente cerca de lo normal. Los gráficos como qqplots pueden ser buenos diagnósticos, pero también es necesario comprender la ciencia. Si existe la preocupación de que haya demasiada asimetría o potencial para valores atípicos, entonces hay métodos no paramétricos disponibles que no requieren el supuesto de normalidad.
fuente
Los supuestos gaussianos se refieren a los residuos del modelo. No hay suposiciones necesarias sobre los datos originales. Como ejemplo, la distribución de las ventas diarias de cerveza. Después de que un modelo razonable capturara el día de la semana, los efectos de las fiestas / eventos, los cambios de nivel / tendencias de tiempo que obtenemos
fuente
En primer lugar puede "globo ocular que" el uso de un QQ-plot para tener una idea general de que aquí está cómo generar una en R.
De acuerdo con el manual de R , puede alimentar su vector de datos directamente en la función shapiro.test ().
Si desea calcular los residuos usted mismo, sí, cada residuo se calcula de esa manera sobre su conjunto de observaciones. Puedes ver más sobre esto aquí .
fuente