¿Qué pruebas utilizo para confirmar que los residuos se distribuyen normalmente?

20

Tengo algunos datos que parecen trazar una gráfica de residuos frente al tiempo casi normal, pero quiero estar seguro. ¿Cómo puedo comprobar la normalidad de los residuos de error?

pb1
fuente
3
Estrechamente relacionado: pruebas de normalidad apropiadas para muestras pequeñas . Aquí hay un par de otras preguntas de posible interés: la prueba de normalidad es esencialmente inútil , para una discusión sobre el valor de la prueba de normalidad y qué pasa si los residuos se distribuyen normalmente, pero es y no , para una discusión / aclaración del sentido en el que la normalidad es una suposición de un modelo lineal.
gung - Restablece a Monica
¡Se puede ver un malentendido muy común de la esencia de una prueba de Shapiro Wilk! El significado correcto a favor de H0 es que el H0 no puede ser rechazado, ¡pero CUIDADO! ¡No significa automáticamente "los datos se distribuyen normalmente"! El resultado alternativo es "Los datos no se distribuyen normalmente".
Joe Hallenbeck

Respuestas:

28
  1. Ninguna prueba le dirá que sus residuos se distribuyen normalmente. De hecho, usted puede apostar de forma fiable que son no .

  2. Las pruebas de hipótesis generalmente no son una buena idea para verificar sus suposiciones. El efecto de la no normalidad en su inferencia generalmente no es una función del tamaño de la muestra *, pero el resultado de una prueba de significación sí lo es . Una pequeña desviación de la normalidad será obvia en un gran tamaño de muestra a pesar de que la respuesta a la pregunta de interés real ('¿en qué medida esto impactó mi inferencia?') Puede ser 'difícilmente'. En consecuencia, una gran desviación de la normalidad en un tamaño de muestra pequeño puede no tener importancia.

    * (agregado en edición) - en realidad esa es una declaración demasiado débil. El impacto de la no normalidad en realidad disminuye con el tamaño de la muestra casi siempre que el CLT y el teorema de Slutsky se mantengan, mientras que la capacidad de rechazar la normalidad (y presumiblemente evitar los procedimientos de teoría normal) aumenta con el tamaño de la muestra ... así que cuando es más capaz de identificar la no normalidad que suele ser cuando no importa † de todos modos ... y la prueba no ayuda cuando realmente importa, en muestras pequeñas.

    bueno, al menos en lo que respecta al nivel de significancia. Sin embargo, el poder aún puede ser un problema si consideramos muestras grandes como aquí, eso también puede ser un problema menor.

  3. Lo que se acerca al tamaño del efecto de medición es un diagnóstico (ya sea una pantalla o una estadística) que mide el grado de no normalidad de alguna manera. Una gráfica QQ es una presentación obvia, y una gráfica QQ de la misma población con un tamaño de muestra y con un tamaño de muestra diferente son al menos ambas estimaciones ruidosas de la misma curva , mostrando aproximadamente la misma 'no normalidad'; al menos debería estar relacionado monotónicamente con la respuesta deseada a la pregunta de interés.

Si debe usar una prueba, Shapiro-Wilk es probablemente tan bueno como cualquier otra cosa (la prueba de Chen-Shapiro suele ser un poco mejor en alternativas de interés común, pero es más difícil encontrar implementaciones), pero está respondiendo una pregunta Ya sé la respuesta a; cada vez que no lo rechazas, te da una respuesta que puedes estar seguro de que está mal.

Glen_b -Reinstate a Monica
fuente
44
+1 Glen_b porque haces varios buenos puntos. Sin embargo, no sería tan negativo sobre el uso de las pruebas de bondad de ajuste. Cuando el tamaño de la muestra es pequeño o moderado, la prueba no tendrá la potencia suficiente para detectar pequeñas desviaciones de la distribución normal. Las diferencias muy grandes pueden dar lugar a valores p muy pequeños (por ejemplo, 0,0001 o menos). Estas pueden ser indicaciones más formales que la observación visual de un gráfico qq, pero siguen siendo muy útiles. También se pueden ver estimaciones de asimetría y curtosis. Es en muestras muy grandes que la bondad de las pruebas de ajuste es problemática.
Michael R. Chernick
44
En esos casos se detectarán pequeñas salidas. Mientras el analista reconozca que en la práctica la distribución de la población no será exactamente normal y rechazar la hipótesis nula es solo decirle que su distribución es ligeramente no normal, no se extraviará. El investigador debe juzgar por sí mismo si la suposición de normalidad es una preocupación o no, dada la ligera desviación que detecta la prueba. Shapiro-Wilk es en realidad una de las pruebas más poderosas contra la hipótesis de la normalidad.
Michael R. Chernick
+1, me gusta especialmente el punto 2; en ese sentido, vale la pena señalar que incluso si la oblicuidad o la curtosis es bastante mala, con una N realmente grande, el Teorema del límite central lo cubrirá, por lo que ese es el momento en que menos necesita normalidad.
gung - Restablece a Monica
3
@gung hay algunas circunstancias en las que una buena aproximación a la normalidad será importante. Por ejemplo, al construir intervalos de predicción utilizando suposiciones normales. Pero todavía confiaría más en un diagnóstico (uno que muestra cuán no normal es) que en una prueba
Glen_b: reinstalar a Monica el
Su punto sobre los intervalos de predicción es bueno.
gung - Restablece a Monica
8

La prueba de Shapiro-Wilk es una posibilidad.

Prueba de Shapiro-Wilk

Esta prueba se implementa en casi todos los paquetes de software estadístico. La hipótesis nula es que los residuos se distribuyen normalmente, por lo tanto, un valor p pequeño indica que debe rechazar el valor nulo y concluir que los residuos no se distribuyen normalmente.

Tenga en cuenta que si el tamaño de su muestra es grande, casi siempre lo rechazará, por lo que la visualización de los residuos es más importante.

Cañada
fuente
Es "Wilk", no "Wilks".
Michael R. Chernick
1

De wikipedia:

Las pruebas de normalidad univariante incluyen la prueba de K-cuadrado de D'Agostino, la prueba de Jarque-Bera, la prueba de Anderson-Darling, el criterio de Cramér-von Mises, la prueba de Lilliefors para la normalidad (una adaptación de la prueba de Kolmogorov-Smirnov), la prueba Prueba de Shapiro-Wilk, prueba de chi-cuadrado de Pearson y prueba de Shapiro-Francia. Un artículo de 2011 de The Journal of Statistical Modeling and Analytics [1] concluye que Shapiro-Wilk tiene el mejor poder para un significado dado, seguido de cerca por Anderson-Darling al comparar Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors y Anderson- Darling pruebas.

Taylor
fuente
1
-1: es posible que desee incluir un enlace a la página de Wikipedia, eliminar la nota de pie de página ("[1]") y usar la función blockquote.
Bernd Weiss
1
La advertencia que Glen_b da es importante para tener en cuenta siempre que se use cualquiera de estas pruebas de bondad de ajuste. Creo que el resultado que usted dice acerca de Shapiro-Wilk no es tan general como parece. No creo que haya una prueba de normalidad más poderosa a nivel mundial.
Michael R. Chernick
2
norte1
@GregSnow No tengo tiempo para analizar detenidamente su paquete y es posible que no sea lo suficientemente experto con R para seguirlo todo. ¿Está diciendo que existe una prueba de normalidad más poderosa a nivel mundial o está diciendo que proporciona ejemplos para mostrar cuándo varias pruebas son más poderosas y, por lo tanto, que no existe una global? Tengo mis dudas de que exista y no creo que Shapiro-Wilk lo sea. Si está afirmando que existe, me gustaría ver una prueba matemática o una referencia a una.
Michael R. Chernick
1
@MichaelChernick, mi reclamo es que mi prueba tendrá tanto poder o más (será tan o más probable que rechace la hipótesis nula de que los datos provienen de una normalidad exacta) como cualquier otra prueba de normalidad. El código R no es difícil de seguir, el código central para calcular el valor p es "tmp.p <- if (any (is.rational (x))) {0", la prueba de su potencia debería ser obvia ( Solo afirmé que es potente y que la documentación puede ser útil, no que la prueba en sí sea útil, google para "aforismo de Cochrane").
Greg Snow