Rango de valores de asimetría y curtosis para distribución normal

11

Quiero saber cuál es el rango de los valores de asimetría y curtosis para los cuales los datos se consideran distribuidos normalmente.

He leído muchos argumentos y sobre todo tengo respuestas confusas. Algunos dicen que la asimetría y para la curtosis es un rango aceptable para su distribución normal. Algunos dicen para la asimetría es un rango aceptable. Encontré una discusión detallada aquí: ¿Cuál es el rango aceptable de asimetría y curtosis para la distribución normal de datos con respecto a este tema? Pero no pude encontrar ninguna declaración decisiva.(1,1)(2,2)(1.96,1.96)

¿Cuál es la base para decidir tal intervalo? ¿Es esta una elección subjetiva? ¿O hay alguna explicación matemática detrás de estos intervalos?

Caballero oscuro
fuente
3
¿Qué o quién define "aceptable"?
Glen_b -Reinstala a Monica el
Buena pregunta. No tengo una respuesta clara para esto.
Dark_Knight
¿Estoy en lo cierto al pensar que respaldar su pregunta es un método implícito, algo así como: "Antes de estimar este modelo / realizar esa prueba, verifique la asimetría y la curtosis de la muestra. Si ambos están dentro de unos rangos especificados previamente, use algunos procedimiento normal de la teoría, de lo contrario utilice otra cosa ". ...?
Glen_b -Reinstala a Monica el
Si es así, ¿cuáles son los supuestos de procedimientos con normalidad en los que podría usar este enfoque? ¿En qué variables verificaría esto? ¿Cuáles son los procedimientos alternativos que usaría si concluye que no son "aceptables" por algún criterio?
Glen_b -Reinstala a Monica el
Además, y esto puede ser importante para el contexto, particularmente en los casos en los que se ofrece algún razonamiento para elegir algunos límites, ¿puede incluir citas de las que provienen estos rangos de las que pueda obtener (especialmente cuando los rangos sugeridos son bastante diferente)? Una cosa que sería útil saber de dicho contexto: ¿para qué situaciones están usando este tipo de cosas?
Glen_b -Reinstala a Monica el

Respuestas:

6

La publicación original pierde un par de puntos importantes: (1) Ningún "dato" puede distribuirse normalmente. Los datos son necesariamente discretos. La pregunta válida es: "¿es el proceso que produjo los datos un proceso distribuido normalmente?" Pero (2) la respuesta a la segunda pregunta es siempre "no", independientemente de lo que le brinde cualquier prueba estadística u otra evaluación basada en datos. Los procesos normalmente distribuidos producen datos con continuidad infinita, simetría perfecta y probabilidades especificadas con precisión dentro de los rangos de desviación estándar (por ejemplo, 68-95-99.7), ninguno de los cuales es precisamente cierto para los procesos que dan lugar a los datos que podemos medir con lo que sea dispositivo de medición que los humanos podemos usar.

Por lo tanto, nunca puede considerar que los datos se distribuyan normalmente, y nunca puede considerar el proceso que produjo los datos como un proceso distribuido con precisión. Pero, como indicó Glen_b, puede que no importe demasiado, dependiendo de lo que intente hacer con los datos.

Las estadísticas de sesgo y curtosis pueden ayudarlo a evaluar ciertos tipos de desviaciones de la normalidad de su proceso de generación de datos. Sin embargo, son estadísticas muy variables. Los errores estándar dados anteriormente no son útiles porque solo son válidos en condiciones normales, lo que significa que solo son útiles como prueba de normalidad, un ejercicio esencialmente inútil. Sería mejor usar el bootstrap para encontrar se's, aunque se necesitarían muestras grandes para obtener se's precisos.

Además, la curtosis es muy fácil de interpretar, al contrario de la publicación anterior. Es el promedio (o valor esperado) de los valores Z, cada uno llevado a la cuarta potencia. Grande | Z | Los valores son valores atípicos y contribuyen en gran medida a la curtosis. Pequeño | Z | Los valores, donde está el "pico" de la distribución, dan valores de Z ^ 4 que son pequeños y no contribuyen esencialmente a la curtosis. Probé en mi artículo https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ que la curtosis está muy bien aproximada por el promedio de los valores Z ^ 4 * I (| Z |> 1). Por lo tanto, la curtosis mide la propensión del proceso de generación de datos para producir valores atípicos.

Peter Westfall
fuente
Solo para aclarar, ¿qué quiere decir exactamente con "proceso normalmente distribuido"? Entiendo lo que está diciendo sobre la discreción y la continuidad de las variables aleatorias, pero ¿qué pasa con la suposición con respecto a la distribución normal que se puede hacer usando el teorema del límite central?
Dark_Knight
CLT no es relevante aquí: estamos hablando de la distribución que produce valores de datos individuales, no promedios. Un "proceso normalmente distribuido" es un proceso que produce variables aleatorias normalmente distribuidas. Un generador de números aleatorios de computadora normal perfecto sería un ejemplo (tal cosa no existe, pero son bastante buenos en el software que usamos)
Peter Westfall
Además, dado que ningún proceso que produce datos que podamos analizar es un proceso normal, también se deduce que la distribución de promedios producidos por cualquiera de estos procesos nunca es exactamente normal, independientemente del tamaño de la muestra. Pero sí, las distribuciones de tales promedios podrían estar cerca de las distribuciones normales según el CLT. La cercanía de tales distribuciones a la normalidad depende de (i) el tamaño de la muestra y (ii) el grado de no normalidad del proceso de generación de datos que produce los valores de datos individuales.
Peter Westfall
44
Hola Peter, ¿puedes evitar referencias como "lo anterior" porque el orden de clasificación cambiará? Lo que está arriba para usted puede no estar arriba para que la vea la siguiente persona. Si te refieres a la publicación de Gung o mi publicación (aún en edición, ya que estoy trabajando en varios aspectos de la misma), puedes identificarlos por su autor.
Glen_b -Reinstala a Monica el
Parece en lo anterior afirmar que una curtosis más alta implica una mayor tendencia a producir valores atípicos. A menos que defina atípicamente los valores atípicos (es decir, para hacer que la afirmación sea verdadera), esta no es una declaración que sea cierta en el caso general. Por ejemplo, es razonablemente fácil construir pares de distribuciones donde el que tiene una cola más pesada tiene curtosis más baja.
Glen_b: reinstala a Mónica el
5

Lo que parece estar pidiendo aquí es un error estándar para la asimetría y la curtosis de una muestra extraída de una población normal. Tenga en cuenta que hay varias formas de estimar cosas como la asimetría o la cola gruesa (curtosis), que obviamente afectarán cuál será el error estándar. Las medidas más comunes en las que las personas piensan son más conocidas técnicamente como los momentos estandarizados tercero y cuarto.

Vale la pena considerar algunas de las complejidades de estas métricas. La estadística de asimetría típica no es una medida de simetría en la forma en que las personas sospechan (cf, aquí ). La curtosis puede ser aún más complicada. Tiene un rango posible de , donde la distribución normal tiene una curtosis de . Como resultado, las personas generalmente usan el "exceso de curtosis", que es la . Entonces el rango es . Sin embargo, en la práctica, la curtosis está limitada desde abajo por , y desde arriba por una función del tamaño de su muestra (aproximadamente ). Además, la curtosis es más difícil de interpretar cuando la asimetría no es[1,)3kurtosis3[2,)skewness2+124/N0 . Estos hechos hacen que sea más difícil de usar de lo que la gente espera.

Para lo que vale, los errores estándar son:

SE(skewness)=6N(N1)(N2)(N+1)(N+3)SE(kurtosis)=2×SE(skewness)N21(N3)(N+5)

Dejando a un lado la cuestión de si podemos diferenciar el sesgo y la curtosis de nuestra muestra de lo que se esperaría de una población normal, también puede preguntar qué tan grande es la desviación de . Las reglas generales que he escuchado (por lo que valen) son generalmente: 0

  • <|.5|pequeña
  • [|.5|,|1|) medio
  • |1|grande

Aquí se puede encontrar un buen resumen introductorio de asimetría y curtosis .

gung - Restablece a Monica
fuente
3

[En lo que sigue, supongo que está proponiendo algo como "verificar el sesgo de la muestra y la curtosis, si ambos están dentro de algunos rangos especificados previamente, use algún procedimiento de teoría normal, de lo contrario use otra cosa".]

Hay una serie de aspectos de esto, de los cuales solo tendremos espacio para un puñado de consideraciones. Comenzaré enumerando lo que creo que pueden ser los temas importantes antes de comenzar a usar un criterio como este. Intentaré volver y escribir un poco sobre cada artículo más adelante:

Cuestiones a considerar

  1. ¿Cuán mal serían los distintos tipos de no normalidad para lo que sea que estemos haciendo?

  2. ¿Qué tan difícil es detectar esas desviaciones usando rangos de asimetría y curtosis de la muestra?

    Una cosa con la que estoy de acuerdo con la propuesta: analiza un par de medidas relacionadas con el tamaño del efecto ( cuánta desviación de la normalidad) en lugar de la importancia. En ese sentido, se acercará a abordar algo útil que haría una prueba de hipótesis formal, que tenderá a rechazar incluso desviaciones triviales en muestras de gran tamaño, al tiempo que ofrece el falso consuelo de no rechazar desviaciones mucho más grandes (y más impactantes) en Tamaños de muestra pequeños. (Las pruebas de hipótesis abordan la pregunta incorrecta aquí).

    Por supuesto, en tamaños de muestra pequeños todavía es problemático en el sentido de que las medidas son muy "ruidosas", por lo que aún podemos ser descarriados allí (un intervalo de confianza nos ayudará a ver cuán malo podría ser realmente).

    No nos dice cómo una desviación en la asimetría o curtosis se relaciona con problemas con lo que sea que queremos normalidad, y los diferentes procedimientos pueden ser muy diferentes en sus respuestas a la no normalidad.

    No nos ayuda si nuestra desviación de la normalidad es de un tipo al que la asimetría y la curtosis serán ciegas.

  3. Si está utilizando estas estadísticas de muestra como base para decidir entre dos procedimientos, ¿cuál es el impacto en las propiedades de la inferencia resultante (por ejemplo, para una prueba de hipótesis, ¿qué aspecto tiene su nivel de significancia y potencia al hacer esto?)

  4. Hay un número infinito de distribuciones que tienen exactamente la misma asimetría y curtosis que la distribución normal, pero son claramente no normales. ¡Ni siquiera necesitan ser simétricos! ¿Cómo impacta la existencia de tales cosas el uso de tales procedimientos? ¿La empresa está condenada desde el principio?

  5. ¿Cuánta variación en el sesgo de la muestra y la curtosis podría ver en muestras extraídas de distribuciones normales? (¿Qué proporción de muestras normales terminaríamos arrojando por alguna regla?)

    [En parte, este problema está relacionado con algo de lo que Gung discute en su respuesta.]

  6. ¿Podría haber algo mejor que hacer en su lugar?

Finalmente, si después de considerar todos estos problemas, decidimos que debemos seguir adelante y utilizar este enfoque, llegaremos a las consideraciones derivadas de su pregunta:

  1. ¿Cuáles son los límites adecuados para la asimetría y la curtosis para diversos procedimientos? ¿De qué variables debemos preocuparnos en qué procedimientos?

    (por ejemplo, si estamos haciendo una regresión, tenga en cuenta que es incorrecto tratar con cualquier IV e incluso el DV sin procesar de esta manera; no se supone que ninguno de estos haya sido extraído de una distribución normal común)


Volveré y agregaré algunas ideas, pero cualquier comentario / pregunta que tenga mientras tanto puede ser útil.

Glen_b -Reinstate a Monica
fuente
En realidad, tenía una pregunta en mi examen que indicaba valores dados de asimetría y curtosis, ¿qué se puede decir sobre la normalidad de la distribución? No estoy particularmente seguro si hacer una conclusión basada en estos dos números es una buena idea, ya que he visto varios casos en los que los valores de asimetría y curtosis están alrededor de y la distribución es muy diferente de lo normal. 0
Dark_Knight
Y tampoco entiendo por qué necesitamos un rango particular de valores de asimetría y curtosis para realizar cualquier prueba de normalidad.
Dark_Knight