He leído en alguna parte de la literatura que la prueba de Shapiro-Wilk se considera la mejor prueba de normalidad porque, para un nivel de significancia dado, , la probabilidad de rechazar la hipótesis nula si es falsa es mayor que en el caso de la otra normalidad. pruebas
¿Podría explicarme, utilizando argumentos matemáticos si es posible, cómo funciona exactamente en comparación con algunas de las otras pruebas de normalidad (digamos la prueba de Anderson-Darling)?
Respuestas:
Primero un comentario general: tenga en cuenta que la prueba de Anderson-Darling es para distribuciones completamente especificadas, mientras que Shapiro-Wilk es para normales con cualquier media y varianza. Sin embargo, como se señaló en D'Agostino & Stephens [ 1 ], Anderson-Darling se adapta de una manera muy conveniente al caso de estimación, similar a (pero converge más rápido y se modifica de una manera más fácil de manejar que la prueba de Lilliefors para el caso Kolmogorov-Smirnov). Específicamente, en la normal, por n = 5 , tablas del valor asintótico de A ∗ = A 2 ( 1 + 4[1] n=5 puede usarse (no pruebe la bondad de ajuste para n <5).A∗=A2(1+4n−25n2)
Como una declaración general, esto es falso.
Las pruebas de normalidad que sean "mejores" dependen de las clases de alternativas que le interesen. Una de las razones por las que Shapiro-Wilk es popular es que tiende a tener muy buen poder en una amplia gama de alternativas útiles. Aparece en muchos estudios de poder, y generalmente funciona muy bien, pero no es universalmente el mejor.
Es bastante fácil encontrar alternativas bajo las cuales es menos poderoso.
Por ejemplo, frente a las alternativas de cola ligera, a menudo tiene menos potencia que el rango estudiado (compárelos en una prueba de normalidad en datos uniformes, por ejemplo, enn=30, una prueba basada enutiene un poder de aproximadamente el 63% en comparación con un poco más del 38% para el Shapiro Wilk).u=max(x)−min(x)sd(x) n = 30 tu
El Anderson-Darling (ajustado para la estimación de parámetros) funciona mejor en el doble exponencial. La asimetría de momento funciona mejor frente a algunas alternativas de asimetría.
Explicaré en términos generales (si desea detalles más específicos, los documentos originales y algunos de los documentos posteriores que los discuten serían su mejor opción):
Considere una prueba más simple pero estrechamente relacionada, la Shapiro-Francia; es efectivamente una función de la correlación entre las estadísticas de orden y las estadísticas de orden esperadas bajo normalidad (y como tal, una medida bastante directa de "qué tan recta es la línea" en el gráfico QQ normal). Como recuerdo, el Shapiro-Wilk es más poderoso porque también tiene en cuenta las covarianzas entre las estadísticas de orden, produciendo un mejor estimador lineal de del gráfico QQ, que luego se escala por s . Cuando la distribución está lejos de ser normal, la relación no es cercana a 1.σ s
En comparación, el Anderson-Darling, como el Kolmogorov-Smirnov y el Cramér-von Mises, se basa en el CDF empírico. Específicamente, se basa en desviaciones ponderadas entre ECDF y ECDF teórico (la ponderación por varianza lo hace más sensible a las desviaciones en la cola).
La prueba de Shapiro y Chen [ 2 ] (1995) (basada en los espacios entre las estadísticas de orden) a menudo exhibe un poco más de poder que el Shapiro-Wilk (pero no siempre); a menudo se desempeñan de manera muy similar.[ 2 ]
-
Use Shapiro Wilk porque a menudo es poderoso, está ampliamente disponible y muchas personas están familiarizadas con él (eliminando la necesidad de explicar en detalle qué es si lo usa en un documento), simplemente no lo use bajo la ilusión de que es "La mejor prueba de normalidad". No hay una mejor prueba de normalidad.
[1]: D'Agostino, RB y Stephens, MA (1986)
Goodness of Fit Techniques ,
Marcel Dekker, Nueva York.
[2]: Chen, L. y Shapiro, S. (1995)
"Una prueba alternativa para la normalidad basada en espaciamientos normalizados".
Revista de cálculo y simulación estadística 53 , 269-287.
fuente
shapiro.test
en R obtendrá un error.sample size must be between 3 and 5000
Entonces, ¿qué otra prueba se debe usar?Claramente, la comparación que leyó no incluyó
SnowsPenultimateNormalityTest
( http://cran.r-project.org/web/packages/TeachingDemos/TeachingDemos.pdf ) ya que tiene el mayor poder posible en todas las alternativas. Por lo tanto, debe considerarse "Mejor" si el poder es la única consideración (tenga en cuenta que mis opiniones están claramente sesgadas, pero documentadas en el enlace / documentación).Sin embargo, estoy de acuerdo con el comentario de Nick Cox de que la mejor prueba es una trama en lugar de una prueba formal, ya que la cuestión de "lo suficientemente normal" es mucho más importante que "exactamente normal". Si desea una prueba significativa, sugeriría combinar la gráfica qq con la metodología en este documento:
Una implementación de eso es la
vis.test
función en el paquete TeachingDemos para R (mismo paquete queSnowsPenultimateNormalityTest
).fuente
Llego tarde a la fiesta, pero responderé con referencias a la investigación publicada revisada por pares. La razón por la que no respondo Sí / No a la pregunta de OP es que es más complicado de lo que parece. No hay una prueba que sea la más poderosa para muestras provenientes de cualquier distribución con o sin valores atípicos. Los valores atípicos pueden disminuir severamente el poder de una prueba y aumentar para otra. Algunas pruebas funcionan mejor cuando la muestra proviene de distribución simétrica, etc.
y
Si realmente quiere reducir su investigación a sí / no, entonces la respuesta es SÍ. La prueba de Shapiro-Wilks parece ser un poco más poderosa en la mayoría de los casos que Anderson-Darling. Recomiendan la prueba de Shapiro Wilk cuando no tiene una distribución alternativa particular en mente. Sin embargo, si está interesado en este tema, vale la pena leer el documento. Al menos mira las mesas.
Edith Seier, Pruebas de normalidad: Comparación de potencia , en International Encyclopedia of Statistical Science, 2014 - Una encuesta de investigación publicada sobre el tema. Una vez más, la respuesta depende de la muestra y de su conocimiento sobre la distribución alternativa, pero la respuesta trivializada sería SÍ, Shapiro-Wilk suele ser más poderoso, pero no siempre.
Henry C. Thode, Pruebas de normalidad , en International Encyclopedia of Statistical Science, 2014 - Descripción de las pruebas de normalidad populares. Su recomendación:
Ahora, esto se trataba de pruebas univariadas. Thode (2002) también tiene pruebas multivariadas, datos censurados, mezclas normales, pruebas en presencia de valores atípicos y mucho más.
fuente
Una respuesta más seria para avanzar en esta pregunta y especialmente el continuo interés de @ silverfish. Un enfoque para responder preguntas como esta es ejecutar algunas simulaciones para comparar. A continuación se muestra un código R que simula datos bajo varias alternativas y realiza varias de las pruebas de normalidad y compara la potencia (y un intervalo de confianza en la potencia ya que la potencia se estima mediante simulación). Ajusté un poco los tamaños de muestra porque no era interesante cuando muchas de las potencias estaban cerca del 100% o 5%, encontré números redondos que daban potencias cerca del 80%. Cualquier persona interesada podría tomar fácilmente este código y modificarlo para diferentes supuestos, diferentes alternativas, etc.
Puede ver que existen alternativas para las cuales algunas de las pruebas funcionan mejor y otras en las que lo hacen peor. La pregunta importante es, entonces, qué alternativas son más realistas para sus preguntas / área científica. Esto realmente debe seguirse con una simulación del efecto de los tipos de no normalidad de interés en otras pruebas que se realizan. Algunos de estos tipos de no normalidad afectan en gran medida a otras pruebas basadas en la normalidad, otras no las afectan demasiado.
fuente