¿Las pruebas de normalidad son 'esencialmente inútiles'?

298

Un ex colega una vez me argumentó lo siguiente:

Usualmente aplicamos pruebas de normalidad a los resultados de procesos que, bajo nulo, generan variables aleatorias que son solo asintóticamente o casi normales (con la parte 'asintóticamente' dependiente de alguna cantidad que no podemos hacer grande); En la era de la memoria barata, los grandes datos y los procesadores rápidos, las pruebas de normalidad siempre deberían rechazar el nulo de distribución normal para muestras grandes (aunque no increíblemente grandes). Y así, perversamente, las pruebas de normalidad solo deben usarse para muestras pequeñas, cuando presumiblemente tienen una potencia más baja y menos control sobre la tasa de tipo I.

¿Es este un argumento válido? ¿Es este un argumento bien conocido? ¿Existen pruebas bien conocidas para una hipótesis nula 'más difusa' que la normalidad?

Jeromy Anglim
fuente
23
Como referencia: no creo que esto deba ser wiki comunitario.
Shane
2
No estaba segura de que había una 'respuesta correcta' ...
shabbychef
55
En cierto sentido, esto es cierto para todas las pruebas de un número finito de parámetros. Con fijo (el número de parámetros en los que se lleva a cabo la prueba) y creciendo sin límites, cualquier diferencia entre los dos grupos (no importa cuán pequeño) siempre romperá el valor nulo en algún momento. En realidad, este es un argumento a favor de las pruebas bayesianas. nkn
user603
2
Para mí, no es un argumento válido. De todos modos, antes de dar una respuesta, debes formalizar un poco las cosas. Puede estar equivocado y puede no estarlo, pero ahora lo que tiene no es más que una intuición: para mí, la frase "En la era de la memoria barata, los grandes datos y los procesadores rápidos, las pruebas de normalidad siempre deberían rechazar lo nulo de lo normal". necesita aclaraciones :) Creo que si intentas dar una precisión más formal, la respuesta será simple.
robin girard
8
El hilo en "¿Son inadecuados los conjuntos de datos grandes para la prueba de hipótesis" discute una generalización de esta pregunta. ( stats.stackexchange.com/questions/2516/… )
whuber

Respuestas:

229

No es un argumento. Es un hecho (un poco enérgico) que las pruebas de normalidad formales siempre rechazan los grandes tamaños de muestra con los que trabajamos hoy. Incluso es fácil demostrar que cuando n se hace grande, incluso la desviación más pequeña de la normalidad perfecta conducirá a un resultado significativo. Y como cada conjunto de datos tiene algún grado de aleatoriedad, ningún conjunto de datos será una muestra perfectamente distribuida normalmente. Pero en las estadísticas aplicadas, la pregunta no es si los datos / residuos ... son perfectamente normales, sino lo suficientemente normales como para que se cumplan los supuestos.

Permítanme ilustrar con la prueba de Shapiro-Wilk . El siguiente código construye un conjunto de distribuciones que se acercan a la normalidad pero que no son completamente normales. A continuación, probamos shapiro.testsi una muestra de estas distribuciones casi normales se desvía de la normalidad. En R:

x <- replicate(100, { # generates 100 different tests on each distribution
                     c(shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,   #$
                       shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,  #$
                       shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, #$
                       shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value) #$
                    } # rnorm gives a random draw from the normal distribution
               )
rownames(x) <- c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # the proportion of significant deviations
  n10  n100 n1000 n5000 
 0.04  0.04  0.20  0.87 

La última línea verifica qué fracción de las simulaciones para cada tamaño de muestra se desvía significativamente de la normalidad. Entonces, en el 87% de los casos, una muestra de 5000 observaciones se desvía significativamente de la normalidad según Shapiro-Wilks. Sin embargo, si ve las gráficas qq, nunca decidiría una desviación de la normalidad. A continuación puede ver como ejemplo las parcelas qq para un conjunto de muestras aleatorias

texto alternativo

con valores p

  n10  n100 n1000 n5000 
0.760 0.681 0.164 0.007 
Joris Meys
fuente
40
En una nota al margen, el teorema del límite central hace innecesaria la verificación formal de la normalidad en muchos casos cuando n es grande.
Joris Meys
31
sí, la verdadera pregunta no es si los datos se distribuyen realmente normalmente, sino si son lo suficientemente normales como para que el supuesto de normalidad subyacente sea razonable para el propósito práctico del análisis, y habría pensado que el argumento basado en CLT es normalmente [sic] suficiente para eso.
Dikran Marsupial
53
Esta respuesta parece no abordar la pregunta: simplemente demuestra que la prueba SW no alcanza su nivel de confianza nominal y, por lo tanto, identifica una falla en esa prueba (o al menos en la Rimplementación de la misma). Pero eso es todo: no tiene relación con el alcance de la utilidad de las pruebas de normalidad en general. La afirmación inicial de que las pruebas de normalidad siempre rechazan en muestras de gran tamaño es simplemente incorrecta.
whuber
19
@whuber Esta respuesta responde a la pregunta. El punto central de la pregunta es el "cercano" en "casi normalidad". SW prueba cuál es la probabilidad de que la muestra se extraiga de una distribución normal. Como las distribuciones que construí no son deliberadamente normales, esperaría que la prueba SW haga lo que promete: rechazar el valor nulo. El punto es que este rechazo no tiene sentido en muestras grandes, ya que la desviación de la normalidad no resulta en una pérdida de potencia allí. Entonces, la prueba es correcta, pero no tiene sentido, como lo muestran los QQplots
Joris Meys
11
Me basé en lo que escribiste y entendí mal lo que querías decir con una distribución "casi normal". Ahora veo, pero solo leyendo el código y probándolo cuidadosamente, que está simulando a partir de tres distribuciones normales estándar con medias en y y combinando los resultados en una relación . ¿No esperamos que una buena prueba de normalidad sería rechazar la hipótesis nula en este caso? Lo que efectivamente ha demostrado es que los gráficos QQ no son muy buenos para detectar tales mezclas, ¡eso es todo! 0, 1,22:2:1
whuber
172

Cuando se piensa si las pruebas de normalidad son "esencialmente inútiles", primero hay que pensar para qué se supone que es útil. Muchas personas (bueno ... al menos, muchos científicos) no entienden la pregunta que responde la prueba de normalidad.

La pregunta que responden las pruebas de normalidad: ¿Hay evidencia convincente de alguna desviación del ideal gaussiano? Con conjuntos de datos reales moderadamente grandes, la respuesta es casi siempre sí.

La pregunta que los científicos a menudo esperan que responda la prueba de normalidad: ¿Los datos se desvían lo suficiente del ideal gaussiano como para "prohibir" el uso de una prueba que asume una distribución gaussiana? Los científicos a menudo quieren que la prueba de normalidad sea el árbitro que decide cuándo abandonar las pruebas convencionales (ANOVA, etc.) y, en su lugar, analiza los datos transformados o utiliza una prueba no paramétrica basada en el rango o un enfoque de remuestreo o de arranque. Para este propósito, las pruebas de normalidad no son muy útiles.

Harvey Motulsky
fuente
16
+1 para una respuesta buena e informativa. Me resulta útil ver una buena explicación para un malentendido común (que por cierto me he estado experimentando: stats.stackexchange.com/questions/7022/… ). Sin embargo, lo que extraño es una solución alternativa a este malentendido común. Quiero decir, si las pruebas de normalidad son el camino equivocado, ¿cómo se hace para verificar si una aproximación normal es aceptable / justificada?
posdef
66
No hay sustituto para el sentido (común) del analista (o, bueno, el investigador / científico). Y la experiencia (aprendida al intentar y ver: ¿qué conclusiones obtengo si asumo que es normal? ¿Cuál es la diferencia si no es así?). Los gráficos son tus mejores amigos.
FairMiles
2
Me gusta este artículo, que señala lo que usted hizo: Micceri, T. (1989). El unicornio, la curva normal y otras criaturas improbables. Boletín psicológico, 105 (1), 156-166.
Jeremy Miles
44
Ver gráficos es genial, pero ¿qué pasa si hay demasiados para examinarlos manualmente? ¿Podemos formular procedimientos estadísticos razonables para señalar posibles puntos problemáticos? Estoy pensando en situaciones como los experimentadores A / B a gran escala: exp-platform.com/Pages/… .
dfrankow
118

Creo que las pruebas de normalidad pueden ser útiles como acompañantes de los exámenes gráficos. Sin embargo, deben usarse de la manera correcta. En mi opinión, esto significa que muchas pruebas populares, como las pruebas de Shapiro-Wilk, Anderson-Darling y Jarque-Bera, nunca deberían usarse.

Antes de explicar mi punto de vista, permítanme hacer algunos comentarios:

  • En un interesante trabajo reciente, Rochon et al. estudió el impacto de la prueba de Shapiro-Wilk en la prueba t de dos muestras. El procedimiento de dos pasos para probar la normalidad antes de realizar, por ejemplo, una prueba t no está exento de problemas. Por otra parte, tampoco lo es el procedimiento de dos pasos de investigar gráficamente la normalidad antes de realizar una prueba t. La diferencia es que el impacto de este último es mucho más difícil de investigar (ya que requeriría un estadístico para investigar gráficamente la normalidad veces más o menos ...).100,000
  • Es útil cuantificar la no normalidad , por ejemplo, calculando la asimetría de la muestra, incluso si no desea realizar una prueba formal.
  • La normalidad multivariada puede ser difícil de evaluar gráficamente y la convergencia a las distribuciones asintóticas puede ser lenta para las estadísticas multivariadas. Por lo tanto, las pruebas de normalidad son más útiles en un entorno multivariante.
  • Las pruebas de normalidad son quizás especialmente útiles para los profesionales que usan estadísticas como un conjunto de métodos de recuadro negro . Cuando se rechaza la normalidad, el profesional debe alarmarse y, en lugar de llevar a cabo un procedimiento estándar basado en el supuesto de normalidad, considere usar un procedimiento no paramétrico, aplicar una transformación o consultar a un estadístico más experimentado.
  • Como han señalado otros, si es lo suficientemente grande, el CLT generalmente salva el día. Sin embargo, lo que es "suficientemente grande" difiere para diferentes clases de distribuciones.n

(En mi definición) una prueba de normalidad se dirige contra una clase de alternativas si es sensible a las alternativas de esa clase, pero no sensible a las alternativas de otras clases. Ejemplos típicos son las pruebas que se dirigen hacia alternativas sesgadas o kurtóticas . Los ejemplos más simples usan la asimetría de la muestra y la curtosis como estadísticas de prueba.

Las pruebas de normalidad dirigidas a menudo son preferibles a las pruebas ómnibus (como las pruebas de Shapiro-Wilk y Jarque-Bera), ya que es común que solo algunos tipos de no normalidad sean motivo de preocupación para un procedimiento inferencial particular .

Consideremos la prueba t de Student como un ejemplo. Suponga que tenemos una muestra iid de una distribución con asimetría y (exceso) curtosisSi es simétrico respecto a su media, . Tanto como son 0 para la distribución normal.γ=E(Xμ)3σ3κ=E(Xμ)4σ43.Xγ=0γκ

Bajo supuestos de regularidad, obtenemos la siguiente expansión asintótica para el cdf del estadístico de prueba : Tn

P(Tnx)=Φ(x)+n1/216γ(2x2+1)ϕ(x)n1x(112κ(x23)118γ2(x4+2x23)14(x2+3))ϕ(x)+o(n1),

donde es el cdf y es el pdf de la distribución normal estándar.Φ()ϕ()

γ aparece por primera vez en el término , mientras que aparece en el término . El rendimiento asintótico de es mucho más sensible a las desviaciones de la normalidad en forma de asimetría que en forma de curtosis.n1/2κn1 T nTn

Se puede verificar mediante simulaciones que esto también es cierto para la pequeña . Por lo tanto, la prueba t de Student es sensible a la asimetría, pero relativamente robusta contra colas pesadas, y es razonable utilizar una prueba de normalidad que se dirija hacia alternativas de inclinación antes de aplicar la prueba t .n

Como regla general ( no una ley de la naturaleza), la inferencia sobre los medios es sensible a la asimetría y la inferencia sobre las variaciones es sensible a la curtosis.

El uso de una prueba de normalidad dirigida tiene el beneficio de obtener un mayor poder contra alternativas "peligrosas" y un menor poder contra alternativas que son menos "peligrosas", lo que significa que es menos probable que rechacemos la normalidad debido a las desviaciones de la normalidad que ganó No afecta el desempeño de nuestro procedimiento de inferencia. La no normalidad se cuantifica de manera relevante para el problema en cuestión. Esto no siempre es fácil de hacer gráficamente.

A medida que aumenta, la asimetría y la curtosis se vuelven menos importantes, y es probable que las pruebas directas detecten si estas cantidades se desvían de 0 incluso en una pequeña cantidad. En tales casos, parece razonable, por ejemplo, probar si o (mirando el primer término de la expansión anterior) lugar de si . Esto se ocupa de algunos de los problemas que enfrentamos a medida que crece.n|γ|1

|n1/216γ(2zα/22+1)ϕ(zα/2)|0.01
γ=0n

MånsT
fuente
2
Ahora esta es una gran respuesta!
user603
10
Sí, esta debería ser la respuesta aceptada, realmente fantástica
jenesaisquoi
2
"Es común que solo algunos tipos de no normalidad sean motivo de preocupación para un procedimiento de inferencia particular". - por supuesto, uno debe usar una prueba dirigida a ese tipo de no normalidad. Pero el hecho de que uno esté usando una prueba de normalidad implica que se preocupa por todos los aspectos de la normalidad. La pregunta es: ¿es una prueba de normalidad en ese caso una buena opción?
rbm
La prueba de la suficiencia de los supuestos para pruebas particulares se está volviendo común, lo que afortunadamente elimina algunas conjeturas.
Carl
1
@Carl: ¿Puedes agregar algunas referencias / ejemplos para eso?
kjetil b halvorsen
58

Las pruebas de normalidad de la OMI son absolutamente inútiles por las siguientes razones:

  1. En muestras pequeñas, hay una buena posibilidad de que la distribución real de la población sea sustancialmente no normal, pero la prueba de normalidad no es poderosa para detectarla.

  2. En muestras grandes, cosas como la prueba T y ANOVA son bastante robustas a la no normalidad.

  3. De todos modos, la idea de una población distribuida normalmente es solo una aproximación matemática conveniente. Ninguna de las cantidades típicamente tratadas estadísticamente podría tener distribuciones con soporte para todos los números reales. Por ejemplo, las personas no pueden tener una altura negativa. Algo no puede tener masa negativa o más masa que la que hay en el universo. Por lo tanto, es seguro decir que nada está exactamente distribuido normalmente en el mundo real.

dsimcha
fuente
2
La diferencia de potencial eléctrico es un ejemplo de una cantidad del mundo real que puede ser negativa.
nico
16
@nico: Claro que puede ser negativo, pero hay un límite finito porque hay pocos protones y electrones en el Universo. Por supuesto, esto es irrelevante en la práctica, pero ese es mi punto. Nada se distribuye exactamente de manera normal (el modelo es incorrecto), pero hay muchas cosas que están lo suficientemente cerca (el modelo es útil). Básicamente, ya sabía que el modelo estaba equivocado, y rechazar o no rechazar el valor nulo no proporciona esencialmente información sobre si es útil.
dsimcha
1
@dsimcha: creo que es una respuesta realmente perspicaz y útil.
rolando2
55
@dsimcha, el test y ANOVA no son robustos a la no normalidad. Ver documentos de Rand Wilcox. t
Frank Harrell
@dsimcha "el modelo está equivocado". ¿No están TODOS los modelos "equivocados"?
Atirag
30

Creo que las pruebas previas para la normalidad (que incluye evaluaciones informales usando gráficos) pierden el punto.

  1. Los usuarios de este enfoque suponen que la evaluación de normalidad tiene en efecto una potencia cercana a 1.0.
  2. Las pruebas no paramétricas como Wilcoxon, Spearman y Kruskal-Wallis tienen una eficiencia de 0.95 si la normalidad se mantiene.
  3. En vista de 2. uno puede pre-especificar el uso de una prueba no paramétrica si incluso considera la posibilidad de que los datos no surjan de una distribución normal.
  4. Los modelos de probabilidad acumulada ordinal (el modelo de probabilidades proporcionales es miembro de esta clase) generalizan las pruebas no paramétricas estándar. Modelos ordinales son completamente transformación invariante con respecto a , son robustos, de gran alcance, y permiten la estimación de cuantiles y la media de .YYY
Frank Harrell
fuente
tenga en cuenta que la eficiencia de 0.95 es asintótica : FWIW Supongo que la eficiencia es mucho menor para los tamaños típicos de muestras finitas ... (aunque es cierto que no he visto esto estudiado, ni he tratado de explorarlo yo mismo)
Ben Bolker
16

Antes de preguntar si una prueba o cualquier tipo de verificación aproximada de la normalidad es "útil", debe responder la pregunta detrás de la pregunta: "¿Por qué pregunta?"

Por ejemplo, si solo desea poner un límite de confianza en torno a la media de un conjunto de datos, las desviaciones de la normalidad pueden o no ser importantes, dependiendo de la cantidad de datos que tenga y cuán grandes sean las desviaciones. Sin embargo, las desviaciones de la normalidad pueden ser cruciales si desea predecir cuál será el valor más extremo en futuras observaciones o en la población de la que ha tomado muestras.

Emil Friedman
fuente
12

Permítanme agregar una pequeña cosa:
realizar una prueba de normalidad sin tener en cuenta su error alfa aumenta su probabilidad general de realizar un error alfa.

Nunca olvidará que cada prueba adicional hace esto siempre que no controle la acumulación de error alfa. Por lo tanto, otra buena razón para descartar las pruebas de normalidad.

Henrik
fuente
Supongo que se refiere a una situación en la que primero se realiza una prueba de normalidad y luego se utiliza el resultado de esa prueba para decidir qué prueba realizar a continuación.
Harvey Motulsky
3
Me refiero a la utilidad general de las pruebas de normalidad cuando se usan como método para determinar si es apropiado o no usar un método determinado. Si los aplica en estos casos, es, en términos de probabilidad de cometer un error alfa, mejor realizar una prueba más sólida para evitar la acumulación del error alfa.
Henrik
44
H0
3
Otra forma en que una prueba de normalidad podría aumentar los errores de tipo I es si estamos hablando de "probabilidad general de realizar un error alfa". La prueba en sí tiene una tasa de error, por lo que , en general , aumenta nuestra probabilidad de cometer un error. Énfasis en una cosa pequeña también, supongo ...
Nick Stauner
2
@NickStauner Eso es exactamente lo que quería transmitir. Gracias por aclarar este punto.
Henrik
11

Las respuestas aquí ya han abordado varios puntos importantes. Para resumir rápidamente:

  • No existe una prueba consistente que pueda determinar si un conjunto de datos realmente sigue una distribución o no.
  • Las pruebas no sustituyen la inspección visual de los datos y los modelos para identificar observaciones de alto apalancamiento, alta influencia y comentar sus efectos en los modelos.
  • Los supuestos para muchas rutinas de regresión a menudo se citan erróneamente como que requieren "datos" [residuales] distribuidos normalmente y que los estadísticos novatos interpretan que esto requiere que el analista evalúe formalmente esto en algún sentido antes de proceder con los análisis.

En primer lugar, estoy agregando una respuesta para citar uno de mis artículos estadísticos que he consultado y leído con más frecuencia: " La importancia de los supuestos de normalidad en grandes conjuntos de datos de salud pública " de Lumley et. Alabama. Vale la pena leerlo en su totalidad. El resumen dice:

La prueba t y la regresión lineal de mínimos cuadrados no requieren ningún supuesto de distribución Normal en muestras suficientemente grandes. Los estudios de simulaciones anteriores muestran que "suficientemente grande" a menudo es inferior a 100, e incluso para nuestros datos de costos médicos extremadamente no normales es inferior a 500. Esto significa que en la investigación de salud pública, donde las muestras son a menudo sustancialmente más grandes que esto, la t -test y el modelo lineal son herramientas predeterminadas útiles para analizar diferencias y tendencias en muchos tipos de datos, no solo aquellos con distribuciones normales. Las pruebas estadísticas formales para la Normalidad son especialmente indeseables ya que tendrán baja potencia en las muestras pequeñas donde la distribución importa y alta potencia solo en muestras grandes donde la distribución no es importante.

Si bien las propiedades de la muestra grande de la regresión lineal se entienden bien, se han realizado pocas investigaciones sobre los tamaños de muestra necesarios para que el supuesto de Normalidad no sea importante. En particular, no está claro cómo el tamaño de muestra necesario depende del número de predictores en el modelo.

El enfoque en las distribuciones normales puede distraer de los supuestos reales de estos métodos. La regresión lineal asume que la varianza de la variable de resultado es aproximadamente constante, pero la restricción principal en ambos métodos es que suponen que es suficiente examinar los cambios en la media de la variable de resultado. Si algún otro resumen de la distribución es de mayor interés, entonces la prueba t y la regresión lineal pueden no ser apropiadas.

Para resumir: la normalidad generalmente no vale la pena la discusión o la atención que recibe en contraste con la importancia de responder una pregunta científica en particular. Si el deseo es resumir las diferencias de medias en los datos, entonces la prueba t y ANOVA o regresión lineal se justifican en un sentido mucho más amplio. Las pruebas basadas en estos modelos permanecen en el nivel alfa correcto, incluso cuando no se cumplen los supuestos de distribución, aunque el poder puede verse afectado negativamente.

Las razones por las cuales las distribuciones normales pueden recibir la atención que reciben pueden ser por razones clásicas, donde se pueden obtener pruebas exactas basadas en distribuciones F para ANOVA y distribuciones T de Student para la prueba T. La verdad es que, entre los muchos avances modernos de la ciencia, generalmente tratamos con conjuntos de datos más grandes que los recopilados anteriormente. Si de hecho se trata de un pequeño conjunto de datos, la razón de que esos datos se distribuyan normalmente no puede provenir de esos datos en sí mismos: simplemente no hay suficiente potencia. Observar otras investigaciones, réplicas o incluso la biología o la ciencia del proceso de medición es, en mi opinión, un enfoque mucho más justificado para discutir un posible modelo de probabilidad subyacente a los datos observados.

Por esta razón, optar por una prueba basada en el rango como alternativa pierde el punto por completo. Sin embargo, estaré de acuerdo en que el uso de estimadores de varianza robustos como el jackknife o bootstrap ofrecen alternativas computacionales importantes que permiten realizar pruebas bajo una variedad de violaciones más importantes de la especificación del modelo, como la independencia o la distribución idéntica de esos errores.

AdamO
fuente
10

Yo solía pensar que las pruebas de normalidad eran completamente inútiles.

Sin embargo, ahora hago consultas para otros investigadores. A menudo, obtener muestras es extremadamente costoso, por lo que querrán hacer inferencia con n = 8, por ejemplo.

En tal caso, es muy difícil encontrar significación estadística con pruebas no paramétricas, pero las pruebas t con n = 8 son sensibles a las desviaciones de la normalidad. Entonces, lo que obtenemos es que podemos decir "bueno, a condición de que se asuma la normalidad, encontramos una diferencia estadísticamente significativa" (no se preocupe, estos son generalmente estudios piloto ...).

Entonces necesitamos alguna forma de evaluar esa suposición. Estoy a medio camino en el campamento de que mirar parcelas es una mejor manera de hacerlo, pero a decir verdad, puede haber un gran desacuerdo al respecto, lo que puede ser muy problemático si una de las personas que no está de acuerdo con usted es Revisor de su manuscrito.

En muchos sentidos, sigo pensando que hay muchas fallas en las pruebas de normalidad: por ejemplo, deberíamos pensar más en el error tipo II que en el tipo I. Pero es necesario.

Acantilado
fuente
Tenga en cuenta que los argumentos aquí es que las pruebas solo son inútiles en teoría. En teoría, siempre podemos obtener tantas muestras como queramos ... Todavía necesitará las pruebas para demostrar que sus datos están al menos cerca de la normalidad.
SmallChess
2
Buen punto. Creo que lo que estás insinuando, y ciertamente lo que creo, es que una medida de desviación de la normalidad es más importante que una prueba de hipótesis.
Cliff AB
Siempre y cuando no cambien a una prueba no paramétrica e intenten interpretar los valores p (que se invalidan por la prueba previa condicional), ¿tal vez está bien?
Björn
2
El poder de una prueba de normalidad será muy bajo en n = 8; en particular, las desviaciones de la normalidad que afectarán sustancialmente las propiedades de una prueba que asume que puede ser bastante difícil de detectar en muestras pequeñas (ya sea por prueba o visualmente).
Glen_b
1
@Glen_b: estoy de acuerdo; Creo que este sentimiento está en línea con preocuparse más por los errores de tipo II en lugar del tipo I. Mi punto es que hay una necesidad del mundo real de probar la normalidad. Si nuestras herramientas actuales realmente satisfacen esa necesidad es una pregunta diferente.
Cliff AB
10

Por lo que vale, una vez desarrollé un muestreador rápido para la distribución normal truncada, y las pruebas de normalidad (KS) fueron muy útiles para depurar la función. Esta muestra pasa la prueba con enormes tamaños de muestra pero, curiosamente, la muestra de zigurat de GSL no lo hizo.

Arthur B.
fuente
8

El argumento que diste es una opinión. Creo que la importancia de las pruebas de normalidad es asegurarse de que los datos no se aparten severamente de lo normal. A veces lo uso para decidir entre usar una prueba paramétrica o no paramétrica para mi procedimiento de inferencia. Creo que la prueba puede ser útil en muestras moderadas y grandes (cuando el teorema del límite central no entra en juego). Tiendo a usar las pruebas de Wilk-Shapiro o Anderson-Darling, pero al ejecutar SAS las obtengo todas y, en general, están bastante de acuerdo. En una nota diferente, creo que los procedimientos gráficos como los gráficos QQ funcionan igualmente bien. La ventaja de una prueba formal es que es objetiva. En muestras pequeñas, es cierto que estas pruebas de bondad de ajuste prácticamente no tienen potencia y eso tiene sentido intuitivo porque una muestra pequeña de una distribución normal podría parecer por casualidad bastante normal y eso se explica en la prueba. Además, la alta asimetría y la curtosis que distinguen muchas distribuciones no normales de las distribuciones normales no se ven fácilmente en muestras pequeñas.

Michael Chernick
fuente
2
Si bien ciertamente se puede usar de esa manera, no creo que sea más objetivo que con un QQ-Plot. La parte subjetiva de las pruebas es cuándo decidir si sus datos son no normales. Con una muestra grande, rechazar a p = 0.05 podría muy bien ser excesivo.
Erik
44
La prueba previa (como se sugiere aquí) puede invalidar la tasa de error Tipo I del proceso general; se debe tener en cuenta el hecho de que se realizó una prueba previa al interpretar los resultados de la prueba que seleccionó. En términos más generales, las pruebas de hipótesis deben mantenerse para probar la hipótesis nula que realmente le interesa, es decir, que no hay asociación entre las variables. La hipótesis nula de que los datos son exactamente normales no entra en esta categoría.
invitado
1
(+1) Aquí hay excelentes consejos. Erik, el uso del "objetivo" también me sorprendió, hasta que me di cuenta de que Michael tenía razón: dos personas que realizan correctamente la misma prueba con los mismos datos siempre obtendrán el mismo valor p, pero podrían interpretar el mismo gráfico QQ de manera diferente. Invitado: gracias por la nota de advertencia sobre el error tipo I. Pero, ¿por qué no deberíamos preocuparnos por la distribución de datos? Con frecuencia esa es información interesante y valiosa. ¡Al menos quiero saber si los datos son consistentes con los supuestos que mis pruebas están haciendo sobre ellos!
Whuber
1
Estoy totalmente en desacuerdo. Ambas personas obtienen el mismo gráfico QQ y el mismo valor p. Para interpretar el valor p, debe tener en cuenta el tamaño de la muestra y las violaciones de la normalidad a las que su prueba es particularmente sensible. Por lo tanto, decidir qué hacer con su valor p es igual de subjetivo. La razón por la que podría preferir el valor p es porque cree que los datos podrían seguir una distribución normal perfecta; de lo contrario, es solo una pregunta qué tan rápido cae el valor p con el tamaño de la muestra. Lo que es más, dado un tamaño de muestra decente, el gráfico QQ se ve más o menos igual y se mantiene estable con más muestras.
Erik
1
Erik, estoy de acuerdo en que los resultados de las pruebas y los gráficos requieren interpretación. Pero el resultado de la prueba es un número y no habrá ninguna disputa al respecto. La trama QQ, sin embargo, admite múltiples descripciones. Aunque cada uno puede ser objetivamente correcto, la elección de a qué prestar atención es ... una elección. Eso es lo que significa "subjetivo": el resultado depende del analista, no solo del procedimiento en sí. Esta es la razón por la cual, por ejemplo, en entornos tan variados como cuadros de control y regulaciones gubernamentales donde la "objetividad" es importante, los criterios se basan en pruebas numéricas y nunca en resultados gráficos.
Whuber
7

Creo que un enfoque de máxima entropía podría ser útil aquí. Podemos asignar una distribución normal porque creemos que los datos están "distribuidos normalmente" (lo que sea que eso signifique) o porque solo esperamos ver desviaciones de aproximadamente la misma magnitud. Además, debido a que la distribución normal tiene solo dos estadísticas suficientes, es insensible a los cambios en los datos que no alteran estas cantidades. Entonces, en cierto sentido, puede pensar en una distribución normal como un "promedio" sobre todas las distribuciones posibles con el mismo primer y segundo momento. Esto proporciona una razón por la cual los mínimos cuadrados deberían funcionar tan bien como lo hace.

probabilidadislogica
fuente
Buen puente de conceptos. También estoy de acuerdo en que en los casos en que dicha distribución es importante, es mucho más esclarecedor pensar cómo se generan los datos. Aplicamos ese principio al ajustar modelos mixtos. Las concentraciones o proporciones, por otro lado, siempre están sesgadas. Podría agregar que por "lo normal ... es insensible a los cambios", quiere decir invariable a los cambios en la forma / escala.
AdamO
7

No diría que es inútil, pero realmente depende de la aplicación. Tenga en cuenta que nunca sabe realmente de qué distribución provienen los datos, y todo lo que tiene es un pequeño conjunto de realizaciones. La media de la muestra siempre es finita en la muestra, pero la media podría ser indefinida o infinita para algunos tipos de funciones de densidad de probabilidad. Consideremos los tres tipos de distribuciones estables de Levy, es decir, distribución normal, distribución de Levy y distribución de Cauchy. La mayoría de sus muestras no tienen muchas observaciones en la cola (es decir, lejos de la media de la muestra). Entonces, empíricamente, es muy difícil distinguir entre los tres, por lo que Cauchy (tiene una media indefinida) y Levy (tiene una media infinita) podría enmascararse fácilmente como una distribución normal.

kolonel
fuente
1
"... empíricamente es muy difícil ..." parece argumentar en contra , más que a favor , de las pruebas de distribución. Es extraño leerlo en un párrafo cuya introducción sugiere que de hecho hay usos para las pruebas de distribución. ¿Qué, entonces, realmente estás tratando de decir aquí?
whuber
3
Estoy en contra de eso, pero también quiero tener cuidado de decir que es inútil ya que no conozco todo el conjunto de escenarios posibles. Hay muchas pruebas que dependen de la suposición de normalidad. Decir que las pruebas de normalidad son inútiles es esencialmente desacreditar todas las pruebas estadísticas, ya que estás diciendo que no estás seguro de que estás usando / haciendo lo correcto. En ese caso, no debe hacerlo, no debe hacer esta gran sección de estadísticas.
Kolonel
Gracias. ¡Las observaciones en ese comentario parecen estar mejor enfocadas en la pregunta que su respuesta original! Puede considerar actualizar su respuesta en algún momento para que sus opiniones y consejos sean más evidentes.
whuber
@whuber No hay problema. ¿Me puede recomendar una edición?
Kolonel
Puede comenzar combinando las dos publicaciones, la respuesta y su comentario, y luego pensar en eliminar (o relegar a un apéndice o aclarar) cualquier material que pueda ser tangencial. Por ejemplo, la referencia a medios indefinidos aún no tiene una relación clara con la pregunta y, por lo tanto, sigue siendo un tanto misteriosa.
whuber
7

Creo que las primeras 2 preguntas han sido respondidas a fondo, pero no creo que se haya abordado la pregunta 3. Muchas pruebas comparan la distribución empírica con una distribución hipotética conocida. El valor crítico para la prueba de Kolmogorov-Smirnov se basa en la especificación completa de F. Se puede modificar para probar contra una distribución paramétrica con parámetros estimados. Entonces, si más difuso significa estimar más de dos parámetros, entonces la respuesta a la pregunta es sí. Estas pruebas se pueden aplicar a las 3 familias de parámetros o más. Algunas pruebas están diseñadas para tener una mejor potencia cuando se prueban contra una familia específica de distribuciones. Por ejemplo, cuando se prueba la normalidad, la prueba de Anderson-Darling o Shapiro-Wilk tiene mayor poder que KS o chi cuadrado cuando la distribución nula hipotética es normal.

Michael Chernick
fuente
5

Las pruebas en las que "algo" importante para el análisis está respaldado por valores p altos, creo que están equivocadas. Como otros señalaron, para grandes conjuntos de datos, se garantiza un valor p inferior a 0,05. Entonces, la prueba esencialmente "recompensa" para conjuntos de datos pequeños y confusos y "recompensas" por falta de evidencia. Algo así como las parcelas qq son mucho más útiles. El deseo de que los números duros decidan cosas como esta siempre (sí / no normal / no normal) pasa por alto que el modelado es parcialmente un arte y cómo se apoyan las hipótesis.

wvguy8258
fuente
2
Sigue siendo que una muestra grande que es casi normal tendrá un valor p bajo, mientras que una muestra más pequeña que no es tan normal a menudo no lo hará. No creo que los valores p grandes sean útiles. Nuevamente, recompensan por la falta de evidencia. Puedo tener una muestra con varios millones de puntos de datos, y casi siempre rechazará la suposición de normalidad bajo estas pruebas, mientras que una muestra más pequeña no lo hará. Por lo tanto, me parece que no son útiles. Si mi pensamiento es defectuoso, demuéstralo usando algún razonamiento deductivo sobre este punto.
wvguy8258
Esto no responde a la pregunta en absoluto.
SmallChess
-2

Un buen uso de la prueba de normalidad que no creo que se haya mencionado es determinar si está bien usar puntajes z. Digamos que seleccionó una muestra aleatoria de una población y desea encontrar la probabilidad de seleccionar un individuo aleatorio de la población y obtener un valor de 80 o más. Esto solo se puede hacer si la distribución es normal, porque para usar las puntuaciones z, se supone que la distribución de la población es normal.

Pero supongo que también puedo ver que esto es discutible ...

Hotaka
fuente
¿Valor de qué? ¿Media, suma, varianza, una observación individual? Solo el último se basa en la normalidad supuesta de la distribución.
whuber
quise decir individual
Hotaka
2
Gracias. Sin embargo, su respuesta sigue siendo tan vaga que es difícil saber a qué procedimientos se refiere e imposible evaluar si sus conclusiones son válidas.
whuber
2
El problema con este uso es el mismo que con otros usos: la prueba dependerá del tamaño de la muestra, por lo que es esencialmente inútil. No te dice si puedes usar puntajes z.
Peter Flom