Un ex colega una vez me argumentó lo siguiente:
Usualmente aplicamos pruebas de normalidad a los resultados de procesos que, bajo nulo, generan variables aleatorias que son solo asintóticamente o casi normales (con la parte 'asintóticamente' dependiente de alguna cantidad que no podemos hacer grande); En la era de la memoria barata, los grandes datos y los procesadores rápidos, las pruebas de normalidad siempre deberían rechazar el nulo de distribución normal para muestras grandes (aunque no increíblemente grandes). Y así, perversamente, las pruebas de normalidad solo deben usarse para muestras pequeñas, cuando presumiblemente tienen una potencia más baja y menos control sobre la tasa de tipo I.
¿Es este un argumento válido? ¿Es este un argumento bien conocido? ¿Existen pruebas bien conocidas para una hipótesis nula 'más difusa' que la normalidad?
fuente
Respuestas:
No es un argumento. Es un hecho (un poco enérgico) que las pruebas de normalidad formales siempre rechazan los grandes tamaños de muestra con los que trabajamos hoy. Incluso es fácil demostrar que cuando n se hace grande, incluso la desviación más pequeña de la normalidad perfecta conducirá a un resultado significativo. Y como cada conjunto de datos tiene algún grado de aleatoriedad, ningún conjunto de datos será una muestra perfectamente distribuida normalmente. Pero en las estadísticas aplicadas, la pregunta no es si los datos / residuos ... son perfectamente normales, sino lo suficientemente normales como para que se cumplan los supuestos.
Permítanme ilustrar con la prueba de Shapiro-Wilk . El siguiente código construye un conjunto de distribuciones que se acercan a la normalidad pero que no son completamente normales. A continuación, probamos
shapiro.test
si una muestra de estas distribuciones casi normales se desvía de la normalidad. En R:La última línea verifica qué fracción de las simulaciones para cada tamaño de muestra se desvía significativamente de la normalidad. Entonces, en el 87% de los casos, una muestra de 5000 observaciones se desvía significativamente de la normalidad según Shapiro-Wilks. Sin embargo, si ve las gráficas qq, nunca decidiría una desviación de la normalidad. A continuación puede ver como ejemplo las parcelas qq para un conjunto de muestras aleatorias
con valores p
fuente
R
implementación de la misma). Pero eso es todo: no tiene relación con el alcance de la utilidad de las pruebas de normalidad en general. La afirmación inicial de que las pruebas de normalidad siempre rechazan en muestras de gran tamaño es simplemente incorrecta.Cuando se piensa si las pruebas de normalidad son "esencialmente inútiles", primero hay que pensar para qué se supone que es útil. Muchas personas (bueno ... al menos, muchos científicos) no entienden la pregunta que responde la prueba de normalidad.
La pregunta que responden las pruebas de normalidad: ¿Hay evidencia convincente de alguna desviación del ideal gaussiano? Con conjuntos de datos reales moderadamente grandes, la respuesta es casi siempre sí.
La pregunta que los científicos a menudo esperan que responda la prueba de normalidad: ¿Los datos se desvían lo suficiente del ideal gaussiano como para "prohibir" el uso de una prueba que asume una distribución gaussiana? Los científicos a menudo quieren que la prueba de normalidad sea el árbitro que decide cuándo abandonar las pruebas convencionales (ANOVA, etc.) y, en su lugar, analiza los datos transformados o utiliza una prueba no paramétrica basada en el rango o un enfoque de remuestreo o de arranque. Para este propósito, las pruebas de normalidad no son muy útiles.
fuente
Creo que las pruebas de normalidad pueden ser útiles como acompañantes de los exámenes gráficos. Sin embargo, deben usarse de la manera correcta. En mi opinión, esto significa que muchas pruebas populares, como las pruebas de Shapiro-Wilk, Anderson-Darling y Jarque-Bera, nunca deberían usarse.
Antes de explicar mi punto de vista, permítanme hacer algunos comentarios:
(En mi definición) una prueba de normalidad se dirige contra una clase de alternativas si es sensible a las alternativas de esa clase, pero no sensible a las alternativas de otras clases. Ejemplos típicos son las pruebas que se dirigen hacia alternativas sesgadas o kurtóticas . Los ejemplos más simples usan la asimetría de la muestra y la curtosis como estadísticas de prueba.
Las pruebas de normalidad dirigidas a menudo son preferibles a las pruebas ómnibus (como las pruebas de Shapiro-Wilk y Jarque-Bera), ya que es común que solo algunos tipos de no normalidad sean motivo de preocupación para un procedimiento inferencial particular .
Consideremos la prueba t de Student como un ejemplo. Suponga que tenemos una muestra iid de una distribución con asimetría y (exceso) curtosisSi es simétrico respecto a su media, . Tanto como son 0 para la distribución normal.γ=E(X−μ)3σ3 κ=E(X−μ)4σ4−3. X γ=0 γ κ
Bajo supuestos de regularidad, obtenemos la siguiente expansión asintótica para el cdf del estadístico de prueba :Tn P(Tn≤x)=Φ(x)+n−1/216γ(2x2+1)ϕ(x)−n−1x(112κ(x2−3)−118γ2(x4+2x2−3)−14(x2+3))ϕ(x)+o(n−1),
donde es el cdf y es el pdf de la distribución normal estándar.Φ(⋅) ϕ(⋅)
Se puede verificar mediante simulaciones que esto también es cierto para la pequeña . Por lo tanto, la prueba t de Student es sensible a la asimetría, pero relativamente robusta contra colas pesadas, y es razonable utilizar una prueba de normalidad que se dirija hacia alternativas de inclinación antes de aplicar la prueba t .n
Como regla general ( no una ley de la naturaleza), la inferencia sobre los medios es sensible a la asimetría y la inferencia sobre las variaciones es sensible a la curtosis.
El uso de una prueba de normalidad dirigida tiene el beneficio de obtener un mayor poder contra alternativas "peligrosas" y un menor poder contra alternativas que son menos "peligrosas", lo que significa que es menos probable que rechacemos la normalidad debido a las desviaciones de la normalidad que ganó No afecta el desempeño de nuestro procedimiento de inferencia. La no normalidad se cuantifica de manera relevante para el problema en cuestión. Esto no siempre es fácil de hacer gráficamente.
A medida que aumenta, la asimetría y la curtosis se vuelven menos importantes, y es probable que las pruebas directas detecten si estas cantidades se desvían de 0 incluso en una pequeña cantidad. En tales casos, parece razonable, por ejemplo, probar si o (mirando el primer término de la expansión anterior) lugar de si . Esto se ocupa de algunos de los problemas que enfrentamos a medida que crece.n |γ|≤1 |n−1/216γ(2z2α/2+1)ϕ(zα/2)|≤0.01 γ=0 n
fuente
Las pruebas de normalidad de la OMI son absolutamente inútiles por las siguientes razones:
En muestras pequeñas, hay una buena posibilidad de que la distribución real de la población sea sustancialmente no normal, pero la prueba de normalidad no es poderosa para detectarla.
En muestras grandes, cosas como la prueba T y ANOVA son bastante robustas a la no normalidad.
De todos modos, la idea de una población distribuida normalmente es solo una aproximación matemática conveniente. Ninguna de las cantidades típicamente tratadas estadísticamente podría tener distribuciones con soporte para todos los números reales. Por ejemplo, las personas no pueden tener una altura negativa. Algo no puede tener masa negativa o más masa que la que hay en el universo. Por lo tanto, es seguro decir que nada está exactamente distribuido normalmente en el mundo real.
fuente
Creo que las pruebas previas para la normalidad (que incluye evaluaciones informales usando gráficos) pierden el punto.
fuente
Antes de preguntar si una prueba o cualquier tipo de verificación aproximada de la normalidad es "útil", debe responder la pregunta detrás de la pregunta: "¿Por qué pregunta?"
Por ejemplo, si solo desea poner un límite de confianza en torno a la media de un conjunto de datos, las desviaciones de la normalidad pueden o no ser importantes, dependiendo de la cantidad de datos que tenga y cuán grandes sean las desviaciones. Sin embargo, las desviaciones de la normalidad pueden ser cruciales si desea predecir cuál será el valor más extremo en futuras observaciones o en la población de la que ha tomado muestras.
fuente
Permítanme agregar una pequeña cosa:
realizar una prueba de normalidad sin tener en cuenta su error alfa aumenta su probabilidad general de realizar un error alfa.
Nunca olvidará que cada prueba adicional hace esto siempre que no controle la acumulación de error alfa. Por lo tanto, otra buena razón para descartar las pruebas de normalidad.
fuente
Las respuestas aquí ya han abordado varios puntos importantes. Para resumir rápidamente:
En primer lugar, estoy agregando una respuesta para citar uno de mis artículos estadísticos que he consultado y leído con más frecuencia: " La importancia de los supuestos de normalidad en grandes conjuntos de datos de salud pública " de Lumley et. Alabama. Vale la pena leerlo en su totalidad. El resumen dice:
Para resumir: la normalidad generalmente no vale la pena la discusión o la atención que recibe en contraste con la importancia de responder una pregunta científica en particular. Si el deseo es resumir las diferencias de medias en los datos, entonces la prueba t y ANOVA o regresión lineal se justifican en un sentido mucho más amplio. Las pruebas basadas en estos modelos permanecen en el nivel alfa correcto, incluso cuando no se cumplen los supuestos de distribución, aunque el poder puede verse afectado negativamente.
Las razones por las cuales las distribuciones normales pueden recibir la atención que reciben pueden ser por razones clásicas, donde se pueden obtener pruebas exactas basadas en distribuciones F para ANOVA y distribuciones T de Student para la prueba T. La verdad es que, entre los muchos avances modernos de la ciencia, generalmente tratamos con conjuntos de datos más grandes que los recopilados anteriormente. Si de hecho se trata de un pequeño conjunto de datos, la razón de que esos datos se distribuyan normalmente no puede provenir de esos datos en sí mismos: simplemente no hay suficiente potencia. Observar otras investigaciones, réplicas o incluso la biología o la ciencia del proceso de medición es, en mi opinión, un enfoque mucho más justificado para discutir un posible modelo de probabilidad subyacente a los datos observados.
Por esta razón, optar por una prueba basada en el rango como alternativa pierde el punto por completo. Sin embargo, estaré de acuerdo en que el uso de estimadores de varianza robustos como el jackknife o bootstrap ofrecen alternativas computacionales importantes que permiten realizar pruebas bajo una variedad de violaciones más importantes de la especificación del modelo, como la independencia o la distribución idéntica de esos errores.
fuente
Yo solía pensar que las pruebas de normalidad eran completamente inútiles.
Sin embargo, ahora hago consultas para otros investigadores. A menudo, obtener muestras es extremadamente costoso, por lo que querrán hacer inferencia con n = 8, por ejemplo.
En tal caso, es muy difícil encontrar significación estadística con pruebas no paramétricas, pero las pruebas t con n = 8 son sensibles a las desviaciones de la normalidad. Entonces, lo que obtenemos es que podemos decir "bueno, a condición de que se asuma la normalidad, encontramos una diferencia estadísticamente significativa" (no se preocupe, estos son generalmente estudios piloto ...).
Entonces necesitamos alguna forma de evaluar esa suposición. Estoy a medio camino en el campamento de que mirar parcelas es una mejor manera de hacerlo, pero a decir verdad, puede haber un gran desacuerdo al respecto, lo que puede ser muy problemático si una de las personas que no está de acuerdo con usted es Revisor de su manuscrito.
En muchos sentidos, sigo pensando que hay muchas fallas en las pruebas de normalidad: por ejemplo, deberíamos pensar más en el error tipo II que en el tipo I. Pero es necesario.
fuente
Por lo que vale, una vez desarrollé un muestreador rápido para la distribución normal truncada, y las pruebas de normalidad (KS) fueron muy útiles para depurar la función. Esta muestra pasa la prueba con enormes tamaños de muestra pero, curiosamente, la muestra de zigurat de GSL no lo hizo.
fuente
El argumento que diste es una opinión. Creo que la importancia de las pruebas de normalidad es asegurarse de que los datos no se aparten severamente de lo normal. A veces lo uso para decidir entre usar una prueba paramétrica o no paramétrica para mi procedimiento de inferencia. Creo que la prueba puede ser útil en muestras moderadas y grandes (cuando el teorema del límite central no entra en juego). Tiendo a usar las pruebas de Wilk-Shapiro o Anderson-Darling, pero al ejecutar SAS las obtengo todas y, en general, están bastante de acuerdo. En una nota diferente, creo que los procedimientos gráficos como los gráficos QQ funcionan igualmente bien. La ventaja de una prueba formal es que es objetiva. En muestras pequeñas, es cierto que estas pruebas de bondad de ajuste prácticamente no tienen potencia y eso tiene sentido intuitivo porque una muestra pequeña de una distribución normal podría parecer por casualidad bastante normal y eso se explica en la prueba. Además, la alta asimetría y la curtosis que distinguen muchas distribuciones no normales de las distribuciones normales no se ven fácilmente en muestras pequeñas.
fuente
Creo que un enfoque de máxima entropía podría ser útil aquí. Podemos asignar una distribución normal porque creemos que los datos están "distribuidos normalmente" (lo que sea que eso signifique) o porque solo esperamos ver desviaciones de aproximadamente la misma magnitud. Además, debido a que la distribución normal tiene solo dos estadísticas suficientes, es insensible a los cambios en los datos que no alteran estas cantidades. Entonces, en cierto sentido, puede pensar en una distribución normal como un "promedio" sobre todas las distribuciones posibles con el mismo primer y segundo momento. Esto proporciona una razón por la cual los mínimos cuadrados deberían funcionar tan bien como lo hace.
fuente
No diría que es inútil, pero realmente depende de la aplicación. Tenga en cuenta que nunca sabe realmente de qué distribución provienen los datos, y todo lo que tiene es un pequeño conjunto de realizaciones. La media de la muestra siempre es finita en la muestra, pero la media podría ser indefinida o infinita para algunos tipos de funciones de densidad de probabilidad. Consideremos los tres tipos de distribuciones estables de Levy, es decir, distribución normal, distribución de Levy y distribución de Cauchy. La mayoría de sus muestras no tienen muchas observaciones en la cola (es decir, lejos de la media de la muestra). Entonces, empíricamente, es muy difícil distinguir entre los tres, por lo que Cauchy (tiene una media indefinida) y Levy (tiene una media infinita) podría enmascararse fácilmente como una distribución normal.
fuente
Creo que las primeras 2 preguntas han sido respondidas a fondo, pero no creo que se haya abordado la pregunta 3. Muchas pruebas comparan la distribución empírica con una distribución hipotética conocida. El valor crítico para la prueba de Kolmogorov-Smirnov se basa en la especificación completa de F. Se puede modificar para probar contra una distribución paramétrica con parámetros estimados. Entonces, si más difuso significa estimar más de dos parámetros, entonces la respuesta a la pregunta es sí. Estas pruebas se pueden aplicar a las 3 familias de parámetros o más. Algunas pruebas están diseñadas para tener una mejor potencia cuando se prueban contra una familia específica de distribuciones. Por ejemplo, cuando se prueba la normalidad, la prueba de Anderson-Darling o Shapiro-Wilk tiene mayor poder que KS o chi cuadrado cuando la distribución nula hipotética es normal.
fuente
Las pruebas en las que "algo" importante para el análisis está respaldado por valores p altos, creo que están equivocadas. Como otros señalaron, para grandes conjuntos de datos, se garantiza un valor p inferior a 0,05. Entonces, la prueba esencialmente "recompensa" para conjuntos de datos pequeños y confusos y "recompensas" por falta de evidencia. Algo así como las parcelas qq son mucho más útiles. El deseo de que los números duros decidan cosas como esta siempre (sí / no normal / no normal) pasa por alto que el modelado es parcialmente un arte y cómo se apoyan las hipótesis.
fuente
Un buen uso de la prueba de normalidad que no creo que se haya mencionado es determinar si está bien usar puntajes z. Digamos que seleccionó una muestra aleatoria de una población y desea encontrar la probabilidad de seleccionar un individuo aleatorio de la población y obtener un valor de 80 o más. Esto solo se puede hacer si la distribución es normal, porque para usar las puntuaciones z, se supone que la distribución de la población es normal.
Pero supongo que también puedo ver que esto es discutible ...
fuente