¿Cuáles son las pruebas estadísticas estándar para ver si los datos siguen distribuciones exponenciales o normales?

12

¿Cuáles son las pruebas estadísticas estándar para ver si los datos siguen distribuciones exponenciales o normales?

smo
fuente
2
La mejor prueba probablemente depende de por qué exactamente está probando la normalidad / exponencial (por lo que algunos antecedentes serían útiles), pero siempre puede usar la prueba de Kolmogorov Smirnov para probar si un conjunto de datos dado se ajusta a cualquier distribución especificada previamente (en wikipedia .org / wiki / Kolmogorov% E2% 80% 93Smirnov_test ). Hay muchos métodos utilizados para la distribución normal específicamente: en.wikipedia.org/wiki/Normality_test
Macro
Es probable que las variables con las que estoy tratando sigan distribuciones normales o exponenciales. Además, tengo un factor que no me importa. Sin embargo, impone algunas variaciones en mis datos. Por lo tanto, me gustaría normalizar las variables para suprimir el efecto de este factor molesto. Entonces, pensé que es mejor normalizar cada variable en función de su distribución subyacente. Es por eso que necesito una prueba para decidir entre estas dos distribuciones.
smo
1
¿Qué significa normalizar en esta oración: pensé que era mejor normalizar cada variable en función de su distribución subyacente ?
Macro
2
Si bien no es una prueba, los gráficos QQ son impresionantes para hacer una inspección rápida e intuitiva de si sus datos coinciden con una distribución.
naught101

Respuestas:

13

Parece que está tratando de decidir si modelar sus datos utilizando la distribución normal o exponencial. Esto me parece algo extraño, ya que estas distribuciones son muy diferentes entre sí.

La distribución normal es simétrica, mientras que la distribución exponencial está muy sesgada a la derecha, sin valores negativos. Por lo general, una muestra de la distribución exponencial contendrá muchas observaciones relativamente cercanas a y algunas observaciones que se desvían a la derecha de . Esta diferencia es a menudo fácil de ver gráficamente.00

Aquí hay un ejemplo en el que he simulado observaciones de una distribución normal con media y varianza y una distribución exponencial con media y varianza :n=1002424

Normal vs exponencial: datos simulados

La simetría de la distribución normal y la asimetría de la exponencial se pueden ver usando histogramas, diagramas de caja y diagramas de dispersión, como se ilustra en la figura anterior.

Otra herramienta muy útil es un diagrama QQ . En el siguiente ejemplo, los puntos deberían seguir aproximadamente la línea si la muestra proviene de una distribución normal. Como puede ver, este es el caso de los datos normales, pero no de los datos exponenciales.

Gráficos QQ para datos simulados

Si el examen gráfico por alguna razón no es suficiente para usted, aún puede usar una prueba para determinar si su distribución es normal o exponencial. Dado que la distribución normal es una familia de escala y ubicación, querrá usar una prueba que sea invariable bajo los cambios de escala y ubicación (es decir, el resultado de la prueba no debería cambiar si cambia sus medidas de pulgadas a centímetros o agrega a todas sus observaciones).+1

Cuando la hipótesis nula es que la distribución es normal y la hipótesis alternativa es que es exponencial, la más poderosa ubicación e invariante escala de la prueba está dada por la estadística donde es la media de la muestra, es la observación más pequeña en la muestra y es la desviación estándar de la muestra. La normalidad se rechaza a favor de la exponencialidad si es demasiado grande.

TE,N=x¯x(1)s
x¯x(1)sTE,N

Esta prueba es en realidad una versión unilateral de la prueba de Grubbs para valores atípicos . Encontrará esto implementado en la mayoría del software estadístico (pero asegúrese de usar la versión correcta; ¡hay varias estadísticas de prueba alternativas que se usan para la prueba atípica!).

La referencia para es la prueba más poderosa:TE,N Sección 4.2.4 de Prueba de normalidad por HC Thode.

MånsT
fuente
El OP le preguntó si prueba la normalidad, ¿qué prueba elegiría y en una situación separada si prueba exponencialmente qué prueba usaría? No leí la declaración de que él estaba sugiriendo probar ambas pruebas en el mismo conjunto de datos.
Michael R. Chernick
Lo interpreté de esa manera, ya que en un comentario de seguimiento a la pregunta, el OP escribió "Es probable que las variables con las que estoy tratando sigan distribuciones normales o exponenciales. [...] Por eso necesito una prueba para decidir entre estas dos distribuciones ".
MånsT
No me di cuenta de eso. En ese caso, su respuesta es muy apropiada. Estaba respondiendo como si él estuviera probando uno a la vez.
Michael R. Chernick
@Michael: También lo interpreté de esa manera cuando leí la pregunta original, pero decidí escribir mi respuesta después de leer el comentario. De lo contrario, no creo que haya mucho que agregar a su respuesta (+1) (aparte de los pequeños comentarios que hice en un comentario allí).
MånsT
5

Para la distribución exponencial, puede usar una prueba llamada prueba de Moran o de Bartlett. El estadístico de prueba involucra la media muestral así como la media muestral del Bajo la hipótesis nula tenemos aproximadamente y una prueba de dos lados funciona. Esta prueba está diseñada contra alternativas gamma.BnY¯logY¯Yi B nχ 2 ( n - 1 )

Bn=bn×{logY¯logY¯}bn=2n×{1+(n+1)/(6n)}1
Bnχ2(n1)

Ver KC Kapur y LR Lamberson Confiabilidad en diseño de ingeniería . Wiley 1977.

Yves
fuente
2
Encontré algunos recursos más recientes y extensos sobre las pruebas de exponencialidad. 1) Un artículo: A Henze, N. y Meintanis, SG (2005): 'Pruebas recientes y clásicas de exponencialidad: una revisión parcial con comparaciones'. Metrika, vol. 61, págs. 29–45. 2) Un paquete CRAN R llamado 'exptest' que implementa las pruebas del artículo mencionado.
Yves
La distribución de B_n no está muy clara. ¿Es Chi cuadrado con n-1 df, o Chi cuadrado con n-1 df multiplicado por n-1?
Dovini Jayasinghe
Funciona como está escrito. Puede verificarlo con unas pocas líneas de código R.
Yves
Gracias. Entonces debería ser la multiplicación como pude ver. En el sentido, los grados de libertad deberían ser n-1?
Dovini Jayasinghe
Bnn1
4

Por normalidad, Anderson-Darling y Shapiro-Wilk son considerados los mejores. Para la prueba exponencial Lillerfors está diseñada específicamente para ello.

Michael R. Chernick
fuente
55
esta respuesta podría mejorarse con un pequeño detalle sobre por qué cada prueba se considera buena / mejor que otras.
naught101
Estas pruebas son mejores en el sentido de que son las más poderosas para las desviaciones de lo normal (Anderson-Darling) y exponencial (Lillefors). No creo que sea fácil basado en la forma de la prueba proporcionar una explicación intuitiva.
Michael R. Chernick
3
@Michael: La prueba de normalidad de Anderson-Darling (como el dito Shapiro-Wilk) tiene un poder respetable contra una amplia gama de alternativas, pero ciertamente no es la más poderosa (ni en general ni en promedio). La elección de la prueba debe depender de la alternativa disponible. Nunca he oído hablar de la prueba de Lillerfors, ¿te refieres a la prueba de Lilliefors (que en realidad es una prueba de normalidad y no una prueba de exponencialidad)?
MånsT
Por supuesto, me refería a la prueba de Lillefors para la exponencialidad, ya que era la que sugería para los supuestos de distribución exponencial. Incluí a Shapiro-Wilk y Anderson-Darling porque, que yo sepa, se encuentran entre las pruebas de normalidad más poderosas. ¿Cuáles son las pruebas más potentes a las que te refieres?
Michael R. Chernick
1
Depende de qué tipo de alternativa tenga. Contra las alternativas de sesgo, por ejemplo, el sesgo de la muestra es a menudo más poderoso que SW y AD. Estas últimas son pruebas ómnibus que son bastante buenas en promedio, pero si sabe qué tipo de no normalidad le preocupa, es mejor usar una prueba dirigida (como la prueba de asimetría de muestra, que está dirigida a alternativas de asimetría) .
MånsT
4

¿Ha considerado métodos gráficos para ver cómo se comportan los datos?

Las técnicas de gráficos de probabilidad generalmente implican clasificar los datos, aplicar el CDF inverso y luego trazar los resultados en el plano cartesiano. Esto le permite ver si varios valores se desvían de la distribución hipotética y posiblemente explican la razón de la desviación.

Schenectady
fuente