Quiero saber cuál es el rango de los valores de asimetría y curtosis para los cuales los datos se consideran distribuidos normalmente.
He leído muchos argumentos y sobre todo tengo respuestas confusas. Algunos dicen que la asimetría y para la curtosis es un rango aceptable para su distribución normal. Algunos dicen para la asimetría es un rango aceptable. Encontré una discusión detallada aquí: ¿Cuál es el rango aceptable de asimetría y curtosis para la distribución normal de datos con respecto a este tema? Pero no pude encontrar ninguna declaración decisiva.
¿Cuál es la base para decidir tal intervalo? ¿Es esta una elección subjetiva? ¿O hay alguna explicación matemática detrás de estos intervalos?
normal-distribution
skewness
kurtosis
Caballero oscuro
fuente
fuente
Respuestas:
La publicación original pierde un par de puntos importantes: (1) Ningún "dato" puede distribuirse normalmente. Los datos son necesariamente discretos. La pregunta válida es: "¿es el proceso que produjo los datos un proceso distribuido normalmente?" Pero (2) la respuesta a la segunda pregunta es siempre "no", independientemente de lo que le brinde cualquier prueba estadística u otra evaluación basada en datos. Los procesos normalmente distribuidos producen datos con continuidad infinita, simetría perfecta y probabilidades especificadas con precisión dentro de los rangos de desviación estándar (por ejemplo, 68-95-99.7), ninguno de los cuales es precisamente cierto para los procesos que dan lugar a los datos que podemos medir con lo que sea dispositivo de medición que los humanos podemos usar.
Por lo tanto, nunca puede considerar que los datos se distribuyan normalmente, y nunca puede considerar el proceso que produjo los datos como un proceso distribuido con precisión. Pero, como indicó Glen_b, puede que no importe demasiado, dependiendo de lo que intente hacer con los datos.
Las estadísticas de sesgo y curtosis pueden ayudarlo a evaluar ciertos tipos de desviaciones de la normalidad de su proceso de generación de datos. Sin embargo, son estadísticas muy variables. Los errores estándar dados anteriormente no son útiles porque solo son válidos en condiciones normales, lo que significa que solo son útiles como prueba de normalidad, un ejercicio esencialmente inútil. Sería mejor usar el bootstrap para encontrar se's, aunque se necesitarían muestras grandes para obtener se's precisos.
Además, la curtosis es muy fácil de interpretar, al contrario de la publicación anterior. Es el promedio (o valor esperado) de los valores Z, cada uno llevado a la cuarta potencia. Grande | Z | Los valores son valores atípicos y contribuyen en gran medida a la curtosis. Pequeño | Z | Los valores, donde está el "pico" de la distribución, dan valores de Z ^ 4 que son pequeños y no contribuyen esencialmente a la curtosis. Probé en mi artículo https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ que la curtosis está muy bien aproximada por el promedio de los valores Z ^ 4 * I (| Z |> 1). Por lo tanto, la curtosis mide la propensión del proceso de generación de datos para producir valores atípicos.
fuente
Lo que parece estar pidiendo aquí es un error estándar para la asimetría y la curtosis de una muestra extraída de una población normal. Tenga en cuenta que hay varias formas de estimar cosas como la asimetría o la cola gruesa (curtosis), que obviamente afectarán cuál será el error estándar. Las medidas más comunes en las que las personas piensan son más conocidas técnicamente como los momentos estandarizados tercero y cuarto.
Vale la pena considerar algunas de las complejidades de estas métricas. La estadística de asimetría típica no es una medida de simetría en la forma en que las personas sospechan (cf, aquí ). La curtosis puede ser aún más complicada. Tiene un rango posible de , donde la distribución normal tiene una curtosis de . Como resultado, las personas generalmente usan el "exceso de curtosis", que es la . Entonces el rango es . Sin embargo, en la práctica, la curtosis está limitada desde abajo por , y desde arriba por una función del tamaño de su muestra (aproximadamente ). Además, la curtosis es más difícil de interpretar cuando la asimetría no es[1,∞) 3 kurtosis−3 [−2,∞) skewness2+1 24/N 0 . Estos hechos hacen que sea más difícil de usar de lo que la gente espera.
Para lo que vale, los errores estándar son:
Dejando a un lado la cuestión de si podemos diferenciar el sesgo y la curtosis de nuestra muestra de lo que se esperaría de una población normal, también puede preguntar qué tan grande es la desviación de . Las reglas generales que he escuchado (por lo que valen) son generalmente:0
Aquí se puede encontrar un buen resumen introductorio de asimetría y curtosis .
fuente
[En lo que sigue, supongo que está proponiendo algo como "verificar el sesgo de la muestra y la curtosis, si ambos están dentro de algunos rangos especificados previamente, use algún procedimiento de teoría normal, de lo contrario use otra cosa".]
Hay una serie de aspectos de esto, de los cuales solo tendremos espacio para un puñado de consideraciones. Comenzaré enumerando lo que creo que pueden ser los temas importantes antes de comenzar a usar un criterio como este. Intentaré volver y escribir un poco sobre cada artículo más adelante:
Cuestiones a considerar
¿Cuán mal serían los distintos tipos de no normalidad para lo que sea que estemos haciendo?
¿Qué tan difícil es detectar esas desviaciones usando rangos de asimetría y curtosis de la muestra?
Una cosa con la que estoy de acuerdo con la propuesta: analiza un par de medidas relacionadas con el tamaño del efecto ( cuánta desviación de la normalidad) en lugar de la importancia. En ese sentido, se acercará a abordar algo útil que haría una prueba de hipótesis formal, que tenderá a rechazar incluso desviaciones triviales en muestras de gran tamaño, al tiempo que ofrece el falso consuelo de no rechazar desviaciones mucho más grandes (y más impactantes) en Tamaños de muestra pequeños. (Las pruebas de hipótesis abordan la pregunta incorrecta aquí).
Por supuesto, en tamaños de muestra pequeños todavía es problemático en el sentido de que las medidas son muy "ruidosas", por lo que aún podemos ser descarriados allí (un intervalo de confianza nos ayudará a ver cuán malo podría ser realmente).
No nos dice cómo una desviación en la asimetría o curtosis se relaciona con problemas con lo que sea que queremos normalidad, y los diferentes procedimientos pueden ser muy diferentes en sus respuestas a la no normalidad.
No nos ayuda si nuestra desviación de la normalidad es de un tipo al que la asimetría y la curtosis serán ciegas.
Si está utilizando estas estadísticas de muestra como base para decidir entre dos procedimientos, ¿cuál es el impacto en las propiedades de la inferencia resultante (por ejemplo, para una prueba de hipótesis, ¿qué aspecto tiene su nivel de significancia y potencia al hacer esto?)
Hay un número infinito de distribuciones que tienen exactamente la misma asimetría y curtosis que la distribución normal, pero son claramente no normales. ¡Ni siquiera necesitan ser simétricos! ¿Cómo impacta la existencia de tales cosas el uso de tales procedimientos? ¿La empresa está condenada desde el principio?
¿Cuánta variación en el sesgo de la muestra y la curtosis podría ver en muestras extraídas de distribuciones normales? (¿Qué proporción de muestras normales terminaríamos arrojando por alguna regla?)
[En parte, este problema está relacionado con algo de lo que Gung discute en su respuesta.]
¿Podría haber algo mejor que hacer en su lugar?
Finalmente, si después de considerar todos estos problemas, decidimos que debemos seguir adelante y utilizar este enfoque, llegaremos a las consideraciones derivadas de su pregunta:
¿Cuáles son los límites adecuados para la asimetría y la curtosis para diversos procedimientos? ¿De qué variables debemos preocuparnos en qué procedimientos?
(por ejemplo, si estamos haciendo una regresión, tenga en cuenta que es incorrecto tratar con cualquier IV e incluso el DV sin procesar de esta manera; no se supone que ninguno de estos haya sido extraído de una distribución normal común)
Volveré y agregaré algunas ideas, pero cualquier comentario / pregunta que tenga mientras tanto puede ser útil.
fuente