Shapiro – Wilk “invertido”

11

La prueba de Sharipo-Wilk, de acuerdo con Wikipedia , prueba la hipótesis nula ( ) "La población se distribuye normalmente".H0

Estoy buscando una prueba de normalidad similar con "La población no está distribuida normalmente".H0

Teniendo tal prueba, quiero calcular un valor para rechazar en el nivel de significancia iff ; demostrando que mi población está normalmente distribuida.H 0 α p < αpH0αp<α

Tenga en cuenta que usar la prueba de Sharipo-Wilk y aceptar iff es un enfoque incorrecto, ya que literalmente significa "no tenemos suficiente evidencia para demostrar que H0 no se cumple". p > αH0p>α

Hilos relacionados - significado del valorp , ¿ es inútil la prueba de normalidad? , pero no puedo ver una solución a mi problema.

Las preguntas: ¿Qué prueba debo usar? ¿Se implementa en R?

petrbel
fuente
66
Una hipótesis nula de "no distribuido normalmente" no es utilizable. Este espacio incluiría todas las distribuciones arbitrariamente cercanas, pero no del todo, distribuciones normales. Me das cualquier conjunto finito de datos. Selecciono la distribución empírica, que no es normal y, por lo tanto, pertenece al espacio nulo. No se puede rechazar.
A. Webb
55
Esta pregunta, que es la misma que la anterior, pide lo imposible. Una respuesta adecuada explicaría cómo funcionan las pruebas de hipótesis estadísticas, razón por la cual le señalé stats.stackexchange.com/questions/31 en un comentario a su otra pregunta.
whuber
55
Mientras que una hipótesis nula "no distribuida normalmente" es imposible, una hipótesis nula "se distribuye con valores absolutos de estadística de bondad de ajuste normal que es al menos tan diferente como " en la línea de una prueba de equivalencia parece razonable. En otras palabras, uno debería ser capaz de probar contra un nulo de "no normal al menos por esto ". @gung ha sugerido precisamente esto en su respuesta. ε
Alexis

Respuestas:

10

No existe una prueba de que sus datos se distribuyen normalmente. Solo hay pruebas de que sus datos no se distribuyen normalmente. Por lo tanto, hay pruebas como la de Shapiro-Wilk donde (hay muchas otras), pero no hay pruebas donde la nula es que la población no es normal y la hipótesis alternativa es que la población es normal. H0:normal

Todo lo que puede hacer es averiguar qué tipo de desviación de la normalidad le interesa (por ejemplo, asimetría) y qué tan grande debería ser esa desviación antes de que le moleste. Luego, podría probar para ver si la desviación de la normalidad perfecta en sus datos fue menor que la cantidad crítica. Para obtener más información sobre la idea general, podría ser útil leer mi respuesta aquí: ¿por qué los estadísticos dicen que un resultado no significativo significa "no se puede rechazar lo nulo" en lugar de aceptar la hipótesis nula?

gung - Restablece a Monica
fuente
5

Quiero calcular un valor p para rechazar H0 en el nivel de significancia α iff p <α; demostrando que mi población está normalmente distribuida.

La distribución normal surge cuando los datos son generados por una serie de eventos aditivos (vea la imagen de quincunx a continuación). Eso significa que no hay retroalimentación ni correlaciones, ¿eso suena como el proceso que lidera sus datos? Si no, probablemente no sea normal.

Existe la posibilidad de que ese tipo de proceso pueda estar ocurriendo en su caso. Lo más cercano que puede llegar a "probar" es recopilar datos suficientes para descartar cualquier otra distribución que las personas puedan tener (lo que probablemente no sea práctico). Otra forma es deducir la distribución normal de alguna teoría junto con algunas otras predicciones. Si los datos son consistentes con todos ellos y nadie puede pensar en otra explicación, esa sería una buena evidencia a favor de la distribución normal.

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png https://en.wikipedia.org/wiki/Bean_machine

Ahora, si no espera ninguna distribución específica a priori, aún puede ser razonable usar la distribución normal para resumir los datos, pero reconozca que esto es esencialmente una elección por ignorancia ( https://en.wikipedia.org/wiki/ Principio_de_entropía máxima ). En este caso, no desea saber si la población está normalmente distribuida, sino saber si la distribución normal es una aproximación razonable para el próximo paso.

En ese caso, debe proporcionar sus datos (o datos generados que sean similares) junto con una descripción de lo que planea hacer con ellos, luego preguntar "¿De qué maneras puede suponer normalidad en este caso confundirme?"

Lívido
fuente
De hecho, sé que los datos son normales (medición independiente en computadoras independientes), sin embargo, necesito hacer algunas suposiciones para mi tesis ... gracias por la aclaración y el ejemplo :)
petrbel
1
Por cierto, Krieger ha proporcionado una encantadora crítica de los usos de Quincunx de Galton en Krieger, N. (2012). ¿Quién y qué es una "población"? debates históricos, controversias actuales e implicaciones para comprender la “salud de la población” y rectificar las inequidades en salud. The Milbank Quarterly , 90 (4): 634–681.
Alexis
@petrbel Esa situación es sutilmente diferente de lo descrito anteriormente. Puede idear un quincunx donde cada observación es iid pero el proceso que genera los datos no lo es. Vea aquí un ejemplo logarítmico normal: LIMPERT et al. Distribuciones log-normales en las ciencias: claves y pistas. Mayo de 2001 / vol. 51 No. 5. BioScience.
Livid
1
@ Alexis Veo que Krieger (2012) reproduce la figura de Limpert et al. (2001) y hace que el punto sea omitido por petrbel: "alterar la estructura puede cambiar las probabilidades de resultado, incluso para objetos idénticos, creando así diferentes distribuciones de población".
Livid
2

Nunca podrá "probar" una suposición de Normalidad en sus datos. Solo ofrezca evidencia en su contra como una suposición. La prueba de Shapiro-Wilk es una forma de hacer esto y se usa todo el tiempo para justificar el supuesto de Normalidad. El razonamiento es que comienzas asumiendo Normalidad. Luego preguntas, ¿mi información sugiere que estoy haciendo una suposición tonta? Así que adelante, pruébelo con Shapiro-Wilk. Si no puede rechazar la hipótesis nula, los datos no sugieren que esté haciendo una suposición tonta.

Tenga en cuenta que las personas usan esta lógica similar todo el tiempo en la práctica, no solo en el contexto de la prueba de Shapiro-Wilk. Quieren usar la regresión lineal, mirar un diagrama de dispersión y ver si la regresión lineal es una idea tonta. O suponen términos de heteroscedasticidad y error de trama para ver si es una idea tonta.Y,X

TrynnaDoStat
fuente
Esa práctica que describe es exactamente el enfoque incorrecto mencionado por Petrbel. Las pruebas suelen ser consistentes, por lo que cuanto mayor sea el tamaño de la muestra, mayor será la probabilidad de declarar el supuesto de normalidad como una idea tonta. Esto es en sí mismo tonto, porque con tamaños de muestra más grandes, el supuesto de normalidad es menos crítico debido a la robustez asintótica de la mayoría de los procedimientos.
Horst Grünbusch
@ HorstGrünbusch ¿No está de acuerdo con que la prueba de Shapiro-Wilk sea una forma válida de evaluar la suposición de que los datos son normales?
TrynnaDoStat
Si acepta que es un enfoque válido, entonces no estoy seguro de lo que no está de acuerdo con mi respuesta.
TrynnaDoStat
No. Vea los argumentos aquí: stats.stackexchange.com/questions/2492/… . Además, no es válido probar la hipótesis nula de que dos muestras tienen la misma varianza y usar la prueba de Satterthwaite solo si las varianzas son significativamente diferentes y, de lo contrario, la prueba t para muestras homoskedastic. Simplemente simule este procedimiento compuesto por su cuenta: puede generar tasas de error tipo I de hasta . 2α
Horst Grünbusch
@ HorstGrünbusch Parece que su problema con mi respuesta tiene que ver con la idea de la prueba de hipótesis en general. Específicamente, el hecho de que en muchas situaciones las pruebas de hipótesis rechazarán el valor nulo con probabilidad 1 a medida que el tamaño de la muestra se aproxima al infinito.
TrynnaDoStat