¿Cuál es la diferencia entre la prueba de normalidad de Shapiro-Wilk y la prueba de normalidad de Kolmogorov-Smirnov?

Respuestas:

23

Realmente ni siquiera puede comparar los dos, ya que Kolmogorov-Smirnov es para una distribución completamente especificada (por lo tanto, si está probando la normalidad, debe especificar la media y la varianza; no pueden estimarse a partir de los datos *), mientras que Shapiro-Wilk es para normalidad, con media y varianza no especificadas.

* tampoco puede estandarizar mediante el uso de parámetros estimados y prueba de normal estándar; eso es realmente lo mismo.

Una forma de comparar sería complementar el Shapiro-Wilk con una prueba para la media y la varianza especificadas de manera normal (combinando las pruebas de alguna manera), o haciendo que las tablas KS se ajusten para la estimación de parámetros (pero ya no es distribución -gratis).

Existe una prueba de este tipo (equivalente a Kolmogorov-Smirnov con parámetros estimados): la prueba de Lilliefors; la versión de prueba de normalidad podría compararse válidamente con la Shapiro-Wilk (y generalmente tendrá una potencia más baja). Más competitiva es la prueba de Anderson-Darling (que también debe ajustarse para la estimación de parámetros para que una comparación sea válida).


En cuanto a lo que prueban, la prueba KS (y Lilliefors) analiza la mayor diferencia entre el CDF empírico y la distribución especificada, mientras que Shapiro Wilk compara efectivamente dos estimaciones de varianza; Shapiro-Francia, estrechamente relacionado, puede considerarse como una función monotónica de la correlación al cuadrado en un gráfico QQ; Si no recuerdo mal, el Shapiro-Wilk también tiene en cuenta las covarianzas entre las estadísticas del pedido.

Editado para agregar: Si bien Shapiro-Wilk casi siempre supera la prueba de Lilliefors en alternativas de interés, un ejemplo en el que no lo hace es el en muestras medianas y grandes ( -ish). Allí el Lilliefors tiene mayor poder.t30n>60

[Debe tenerse en cuenta que hay muchas más pruebas de normalidad disponibles que estas.]

Glen_b -Reinstate a Monica
fuente
Esta es una respuesta interesante, pero tengo un pequeño problema para entender cómo cuadrarlo con la práctica. Quizás estas deberían ser preguntas diferentes, pero ¿cuál es la consecuencia de ignorar la estimación de parámetros en la prueba KS? ¿Esto implica que la prueba de Lillefors tiene menos potencia que un KS conducido incorrectamente en el que los padres fueron estimados a partir de los datos?
russellpierce
@rpierce: el principal impacto del tratamiento de los parámetros estimados como se conoce es reducir drásticamente el nivel de significación real (y, por lo tanto, la curva de potencia) de lo que debería ser si se tiene en cuenta (como lo hace Lilliefors). Es decir, el Lilliefors es el KS 'hecho correctamente' para la estimación de parámetros y tiene una potencia sustancialmente mejor que el KS. Por otro lado, el Lilliefors tiene un poder mucho peor que decir la prueba de Shapiro-Wilk. En resumen, el KS no es una prueba especialmente poderosa para empezar, y empeoramos al ignorar que estamos haciendo la estimación de parámetros.
Glen_b -Reinstale a Monica el
... teniendo en cuenta cuando decimos 'mejor poder' y 'peor poder' que generalmente nos referimos al poder contra lo que la gente generalmente considera un tipo interesante de alternativas.
Glen_b -Reinstala a Monica el
1
He visto una curva de poder, simplemente no pensé qué significaría bajarla o subirla y, en cambio, Dios se aferró a su segundo comentario comenzando: "teniendo en cuenta". De alguna manera me retorcí y pensé que estabas diciendo que 'mejor' poder significaba tener la curva de poder donde 'debería' estar. Que tal vez estábamos haciendo trampa y obteniendo un poder poco realista en el KS porque le estábamos entregando parámetros que deberían haber sido penalizados por estimar (porque eso es a lo que estoy acostumbrado como consecuencia de no reconocer que un parámetro proviene de una estimación) .
russellpierce
1
No estoy seguro de cómo me perdí estos comentarios antes, pero sí, los valores p calculados al usar la prueba KS con parámetros estimados como si fueran conocidos / especificados tenderán a ser demasiado altos. Pruébelo en R: hist(replicate(1000,ks.test(scale(rnorm(x)),pnorm)$p.value))si los valores p fueran como deberían ser, ¡se vería uniforme!
Glen_b -Reinstale a Monica el
24

En pocas palabras, la prueba de Shapiro-Wilk es una prueba específica de normalidad, mientras que el método utilizado por la prueba de Kolmogorov-Smirnov es más general, pero menos potente (lo que significa que rechaza correctamente la hipótesis nula de normalidad con menos frecuencia). Ambas estadísticas toman la normalidad como nula y establecen un estadístico de prueba basado en la muestra, pero la forma en que lo hacen es diferente entre sí en formas que los hacen más o menos sensibles a las características de las distribuciones normales.

La forma exacta en que se calcula W (el estadístico de prueba para Shapiro-Wilk) es un poco complicado , pero conceptualmente, implica la matriz de los valores de la muestra por tamaño y la medición del ajuste frente a las medias, variaciones y covarianzas esperadas. Según tengo entendido, estas comparaciones múltiples contra la normalidad le dan a la prueba más poder que la prueba de Kolmogorov-Smirnov, que es una forma en la que pueden diferir.

Por el contrario, la prueba de Kolmogorov-Smirnov para la normalidad se deriva de un enfoque general para evaluar la bondad del ajuste al comparar la distribución acumulativa esperada con la distribución acumulativa empírica, en relación con:

texto alternativo

Como tal, es sensible en el centro de la distribución, y no en las colas. Sin embargo, la prueba KS is es convergente, en el sentido de que, como n tiende al infinito, la prueba converge a la respuesta verdadera con probabilidad (creo que el Teorema de Glivenko-Cantelli se aplica aquí, pero alguien puede corregirme). Estas son dos formas más en las que estas dos pruebas pueden diferir en su evaluación de la normalidad.

John L. Taylor
fuente
3
Además ... La prueba de Shapiro-Wilk se usa a menudo para estimar desviaciones de la normalidad en muestras pequeñas. Gran respuesta, John! Gracias.
aL3xa
+1, otras dos notas sobre KS: se puede usar para probar cualquier distribución principal (mientras que SW es solo para normalidad), y la potencia más baja podría ser algo bueno con muestras más grandes.
gung - Restablecer Monica
¿Cómo es una baja potencia algo bueno? Mientras el Tipo I permanezca igual, ¿no es siempre mejor la potencia más alta? Además, KS generalmente no es menos poderoso, ¿solo tal vez para la leptokurtosis? Por ejemplo, KS es mucho más poderoso para sesgar sin un aumento proporcional en los errores Tipo 1.
John
El Kolmogorov-Smirnov es para una distribución completamente especificada. El Shapiro Wilk no lo es. No se pueden comparar ... porque tan pronto como realice los ajustes necesarios para hacerlos comparables, ya no tendrá una u otra prueba .
Glen_b -Reinstala a Monica el
Encontré este estudio de simulación, en caso de que agregue algo útil en cuanto a detalles. La misma conclusión general que la anterior: la prueba de Shapiro-Wilk es más sensible. ukm.my/jsm/pdf_files/SM-PDF-40-6-2011/15%20NorAishah.pdf
Nick Stauner