Espero tener más información sobre los cuatro tipos de sesgo de esta comunidad.
Los tipos a los que me refiero se mencionan en la página de ayuda http://www.inside-r.org/packages/cran/e1071/docs/skewness .
El antiguo método no se mencionó en la página de ayuda, pero lo incluyo de todos modos.
require(moments)
require(e1071)
x=rnorm(100)
n=length(x)
hist(x)
###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page
###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)
###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); } #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)
###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...
Aquí está el artículo al que se refiere el autor de e1071: http://onlinelibrary.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes y CA Gill (1998), Comparación de medidas de asimetría de la muestra y curtosis.
De mi lectura de ese documento, sugieren que el tipo # 3 tiene el menor error.
Aquí hay ejemplos de la asimetría del código anterior:
e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532
También noté que el autor de e1071 escribió la función de inclinación diferente de las notas en la página de ayuda. Observe el sqrt:
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page
¿Alguna idea de por qué el sqrt (n) está en la primera ecuación? ¿Qué ecuación maneja mejor el desbordamiento / subflujo? ¿Alguna otra idea de por qué son diferentes (pero producen los mismos resultados)?
Respuestas:
Comencemos con el que usted describe como "un método antiguo"; esta es la segunda asimetría de Pearson, o asimetría media ; de hecho, la asimetría del momento y que son, en general, de la misma cosecha (la asimetría media es en realidad un poco más joven, ya que la asimetría del momento precede a los esfuerzos de Pearson).
Una pequeña discusión de algo de la historia se puede encontrar aquí ; esa publicación también puede arrojar un poco de luz sobre algunas de sus otras preguntas.
Si busca en nuestro sitio utilizando el segundo sesgo de Pearson , encontrará bastantes publicaciones que contienen una discusión sobre el comportamiento de esta medida.
No es realmente más extraño que el momento en que la asimetría se mide en mi mente; ambos a veces hacen cosas extrañas que no coinciden con las expectativas de las personas de una medida de asimetría.
Los tres son simplemente variaciones ligeramente diferentes en el sesgo del tercer momento. En muestras muy grandes, realmente no hay diferencia entre las que usa. En muestras más pequeñas, todas tienen sesgos y variaciones ligeramente diferentes.
Los formularios discutidos aquí no agotan las definiciones de asimetría (creo que he visto alrededor de una docena, el artículo de Wikipedia enumera bastantes, pero incluso eso no cubre la gama), ni siquiera las definiciones relacionadas con terceros -momento de asimetría, del cual he visto más que los tres que crías aquí.
¿Por qué hay muchas medidas de asimetría?
Entonces (tratando todas las asimetrías del tercer momento como una por un momento) ¿por qué tantas asimetrías diferentes? En parte es porque la asimetría como una noción es realmente bastante difícil de precisar. Es algo resbaladizo que realmente no se puede precisar a un solo número. Como resultado, todas las definiciones son menos que adecuadas de alguna manera, pero, sin embargo, generalmente concuerdan con nuestro amplio sentido de lo que creemos que debería hacer una medida de asimetría. La gente sigue intentando encontrar mejores definiciones, pero las viejas medidas, como los teclados QWERTY, no van a ninguna parte.
¿Por qué hay varias medidas de asimetría basadas en el 3er momento?
En cuanto a por qué tantos sesgos en el tercer momento, eso es simplemente porque hay más de una forma de convertir una medida de población en una medida de muestra. Vimos dos rutas basadas en momentos y una basada en acumulantes. Podríamos construir aún más; podríamos, por ejemplo, tratar de obtener una medida imparcial (muestra pequeña) bajo alguna suposición distributiva, o una medida de error cuadrático mínimo o alguna otra cantidad similar.
Puede encontrar algunas de las publicaciones en el sitio relacionadas con la asimetría esclarecedora; hay algunos que muestran ejemplos de distribuciones que no son simétricas pero tienen un sesgo cero del tercer momento. Hay algunos que muestran el sesgo medio de Pearson y el sesgo del tercer momento puede tener signos opuestos.
Aquí hay enlaces a algunas publicaciones relacionadas con la asimetría:
¿Significa media = mediana que una distribución unimodal es simétrica?
En los datos sesgados a la izquierda, ¿cuál es la relación entre la media y la mediana?
¿Cómo determinar la asimetría del histograma con valores atípicos?
fuente