Sé que si la mediana y la media son aproximadamente iguales, entonces esto significa que hay una distribución simétrica, pero en este caso particular no estoy seguro. La media y la mediana son bastante cercanas (solo una diferencia de 0.487m / gall) lo que me llevaría a decir que hay una distribución simétrica, pero al observar el diagrama de caja, parece que está ligeramente sesgada (la mediana está más cerca de Q1 que de Q3 como se confirmó) por los valores).
(Estoy usando Minitab si tiene algún consejo específico para este software).
Respuestas:
Sin duda le han dicho lo contrario, pero mean mediana no implica simetría.=
Hay una medida de asimetría basada en la media menos la mediana (la segunda asimetría de Pearson), pero puede ser 0 cuando la distribución no es simétrica (como cualquiera de las medidas de asimetría comunes).
Del mismo modo, la relación entre la media y la mediana no implica necesariamente una relación similar entre la articulación media ( ) y la mediana. Pueden sugerir sesgos opuestos, o uno puede ser igual a la mediana mientras que el otro no.( Q1+ Q3) / 2
Una forma de investigar la simetría es a través de un diagrama de simetría *.
Si son las observaciones ordenadas de menor a mayor (las estadísticas de orden), y es la mediana, entonces un diagrama de simetría traza vs , vs , ... y así sucesivamente. M Y ( n ) - M M - Y ( 1 ) Y ( n - 1 ) - M M - Y ( 2 )Y( 1 ), Y( 2 ), . . . , Y( n ) METRO Y( n )- M METRO- Y( 1 ) Y( n - 1 )- M METRO- Y( 2 )
* Minitab puede hacer eso . De hecho, planteo esta trama como una posibilidad porque los he visto hacer en Minitab.
Aquí hay cuatro ejemplos:
(Las distribuciones reales fueron (de izquierda a derecha, la fila superior primero) - Laplace, Gamma (forma = 0.8), beta (2,2) y beta (5,2). El código es de Ross Ihaka, de aquí )
Con ejemplos simétricos de cola gruesa, a menudo ocurre que los puntos más extremos pueden estar muy lejos de la línea; prestará menos atención a la distancia desde la línea de uno o dos puntos a medida que se acerca a la esquina superior derecha de la figura.
Por supuesto, hay otras tramas (mencioné la trama de simetría no desde un sentido particular de defensa de esa en particular, sino porque sabía que ya estaba implementada en Minitab). Así que exploremos algunos otros.
Aquí están los esqueletos correspondientes que Nick Cox sugirió en los comentarios:
En estas gráficas, una tendencia hacia arriba indicaría una cola derecha típicamente más pesada que la izquierda y una tendencia hacia abajo indicaría una cola izquierda típicamente más pesada que la derecha, mientras que la simetría sería sugerida por una gráfica relativamente plana (aunque quizás bastante ruidosa).
Nick sugiere que esta trama es mejor (específicamente "más directa"). Me inclino a estar de acuerdo; la interpretación de la gráfica parece un poco más fácil, aunque la información en las gráficas correspondientes a menudo es bastante similar (después de restar la pendiente de la unidad en el primer conjunto, obtienes algo muy parecido al segundo conjunto).
[Por supuesto, ninguna de estas cosas nos dirá que la distribución de la que se extrajeron los datos es realmente simétrica; obtenemos una indicación de cuán cercana a la simétrica es la muestra, y hasta ese punto podemos juzgar si los datos son razonablemente consistentes con la extracción de una población casi simétrica.]
fuente
skewplot
(SSC). La idea se remonta al menos a una sugerencia atribuida a JW Tukey en Wilk, MB y Gnanadesikan, R. 1968. Métodos de trazado de probabilidad para el análisis de datos. Biometrika 55: 1-17.Lo más fácil es calcular el sesgo de la muestra . Hay una función en Minitab para eso. Las distribuciones simétricas tendrán un sesgo cero. La oblicuidad cero no significa necesariamente simétrica, pero en la mayoría de los casos prácticos sí.
Como señaló @NickCox, hay más de una definición de asimetría. Yo uso el que es compatible con Excel , pero puedes usar cualquier otro.
fuente
Centre sus datos alrededor de cero restando la media muestral. Ahora divida sus datos en dos partes, la negativa y la positiva. Tome el valor absoluto de los puntos de datos negativos. Ahora haga una prueba de Kolmogorov-Smirnov de dos muestras comparando las dos particiones entre sí. Haga su conclusión basada en el valor p.
fuente
Coloque sus observaciones ordenadas en valores crecientes en una columna, luego ordénelas en valores decrecientes en otra columna.
Luego calcule el coeficiente de correlación (llámelo Rm) entre estas dos columnas.
Calcule el índice quiral: CHI = (1 + Rm) / 2.
CHI toma valores en el intervalo [0..1].
CHI es nulo SI y SOLO SI su muestra está distribuida simétricamente.
No hay necesidad del tercer momento.
Teoría:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(la mayoría de los documentos citados en estas dos páginas no se pueden descargar en pdf)
Esperanza se ayuda, incluso últimamente.
fuente