Domar el sesgo ... ¿Por qué hay tantas funciones sesgadas?

9

Espero tener más información sobre los cuatro tipos de sesgo de esta comunidad.

Los tipos a los que me refiero se mencionan en la página de ayuda http://www.inside-r.org/packages/cran/e1071/docs/skewness .

El antiguo método no se mencionó en la página de ayuda, pero lo incluyo de todos modos.

require(moments)
require(e1071)


x=rnorm(100)
n=length(x)
hist(x)


###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page


###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)


###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); }  #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)

###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...

Aquí está el artículo al que se refiere el autor de e1071: http://onlinelibrary.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes y CA Gill (1998), Comparación de medidas de asimetría de la muestra y curtosis.

De mi lectura de ese documento, sugieren que el tipo # 3 tiene el menor error.

Aquí hay ejemplos de la asimetría del código anterior:

e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532

También noté que el autor de e1071 escribió la función de inclinación diferente de las notas en la página de ayuda. Observe el sqrt:

sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source

(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page

¿Alguna idea de por qué el sqrt (n) está en la primera ecuación? ¿Qué ecuación maneja mejor el desbordamiento / subflujo? ¿Alguna otra idea de por qué son diferentes (pero producen los mismos resultados)?

Chris
fuente
3
Su pregunta menciona "los cuatro tipos de sesgo" ... pero luego le da un enlace y se inicia en un montón de código (qué idioma ni siquiera menciona). Por lo tanto, las personas no tienen que leer un enlace para descubrir lo que está preguntando, y para el beneficio de las personas que no leen R y aquellos que encuentran que leer el código no es útil para transmitir la comprensión, sería útil definir cuáles cuatro medidas de asimetría que quiere decir antes (o preferiblemente en lugar de) una franja de código. [Cuando dices "los cuatro", en lugar de decir "estos cuatro", ¿por qué crees que hay exactamente cuatro en lugar de cinco o siete o algún otro número?]
Glen_b -Reinstala Monica el
1
Intenté dar algún tipo de respuesta a las preguntas específicas que pude encontrar en su publicación y abordé una serie de cuestiones en el camino, pero fuera de eso "esperar tener más información" es demasiado vago para responder. ¿Puedes identificar más claramente de qué cosas quieres saber? Hay muchas preguntas en nuestro sitio relacionadas con la asimetría.
Glen_b: reinstala a Monica el
Gracias Glen, por tus publicaciones. Incluí R con fines ilustrativos y para mostrar las fórmulas. Tampoco sé látex. :(
Chris

Respuestas:

10

Comencemos con el que usted describe como "un método antiguo"; esta es la segunda asimetría de Pearson, o asimetría media ; de hecho, la asimetría del momento y que son, en general, de la misma cosecha (la asimetría media es en realidad un poco más joven, ya que la asimetría del momento precede a los esfuerzos de Pearson).

Una pequeña discusión de algo de la historia se puede encontrar aquí ; esa publicación también puede arrojar un poco de luz sobre algunas de sus otras preguntas.

Si busca en nuestro sitio utilizando el segundo sesgo de Pearson , encontrará bastantes publicaciones que contienen una discusión sobre el comportamiento de esta medida.

No es realmente más extraño que el momento en que la asimetría se mide en mi mente; ambos a veces hacen cosas extrañas que no coinciden con las expectativas de las personas de una medida de asimetría.


si1

snortesnorte-1sol1

sol1

si1norte2(norte-1)(norte-2)norte,(norte-1)(norte-2)

Los tres son simplemente variaciones ligeramente diferentes en el sesgo del tercer momento. En muestras muy grandes, realmente no hay diferencia entre las que usa. En muestras más pequeñas, todas tienen sesgos y variaciones ligeramente diferentes.


Los formularios discutidos aquí no agotan las definiciones de asimetría (creo que he visto alrededor de una docena, el artículo de Wikipedia enumera bastantes, pero incluso eso no cubre la gama), ni siquiera las definiciones relacionadas con terceros -momento de asimetría, del cual he visto más que los tres que crías aquí.

¿Por qué hay muchas medidas de asimetría?

Entonces (tratando todas las asimetrías del tercer momento como una por un momento) ¿por qué tantas asimetrías diferentes? En parte es porque la asimetría como una noción es realmente bastante difícil de precisar. Es algo resbaladizo que realmente no se puede precisar a un solo número. Como resultado, todas las definiciones son menos que adecuadas de alguna manera, pero, sin embargo, generalmente concuerdan con nuestro amplio sentido de lo que creemos que debería hacer una medida de asimetría. La gente sigue intentando encontrar mejores definiciones, pero las viejas medidas, como los teclados QWERTY, no van a ninguna parte.

¿Por qué hay varias medidas de asimetría basadas en el 3er momento?

En cuanto a por qué tantos sesgos en el tercer momento, eso es simplemente porque hay más de una forma de convertir una medida de población en una medida de muestra. Vimos dos rutas basadas en momentos y una basada en acumulantes. Podríamos construir aún más; podríamos, por ejemplo, tratar de obtener una medida imparcial (muestra pequeña) bajo alguna suposición distributiva, o una medida de error cuadrático mínimo o alguna otra cantidad similar.

Puede encontrar algunas de las publicaciones en el sitio relacionadas con la asimetría esclarecedora; hay algunos que muestran ejemplos de distribuciones que no son simétricas pero tienen un sesgo cero del tercer momento. Hay algunos que muestran el sesgo medio de Pearson y el sesgo del tercer momento puede tener signos opuestos.

Aquí hay enlaces a algunas publicaciones relacionadas con la asimetría:

¿Significa media = mediana que una distribución unimodal es simétrica?

En los datos sesgados a la izquierda, ¿cuál es la relación entre la media y la mediana?

¿Cómo determinar la asimetría del histograma con valores atípicos?


si1

norte(X-X¯)3((X-X¯)2)3/ /2 # de e1071 :: fuente de asimetría

(X-X¯)3/ /norte((X-X¯)2/ /norte)3/ /2 # de momentos y página de ayuda de e1071

32norte

Glen_b -Reinstate a Monica
fuente