¿Alguien puede ofrecer un ejemplo de distribución unimodal que tenga un sesgo de cero pero que no sea simétrico?

31

En mayo de 2010, el usuario de Wikipedia Mcorazao agregó una oración al artículo de asimetría que dice "Un valor cero indica que los valores están distribuidos de manera relativamente uniforme en ambos lados de la media, lo que generalmente implica una distribución simétrica, pero no necesariamente." Sin embargo, la página wiki no tiene ejemplos reales de distribuciones que rompan esta regla. Buscar en Google "distribuciones asimétricas de ejemplo con asimetría cero" tampoco ofrece ejemplos reales, al menos en los primeros 20 resultados.

Usando la definición de que el sesgo se calcula por , y la R fórmula $\operatorname{E}\Big[\big(\tfrac{X-\mu}{\sigma}\big)^{\!3}\, \Big]$

sum((x-mean(x))^3)/(length(x) * sd(x)^3)

Puedo construir una distribución pequeña y arbitraria para reducir el sesgo. Por ejemplo, la distribución.

x = c(1, 3.122, 5, 4, 1.1)

produce un sesgo de . Pero esta es una muestra pequeña y, además, la desviación de la simetría no es grande. Entonces, ¿es posible construir una distribución más grande con un pico que sea altamente asimétrico pero que aún tenga un sesgo de casi cero? $-5.64947\cdot10^{-5}$

distributions expected-value skewness Andy McKenzie
fuente

3

¿Quieres que la distribución sea unimodal o no? El título lo dice, pero el texto apenas menciona este punto.

Dilip Sarwate

@Dilip Sí, me resultaría más interesante si la distribución fuera unimodal, ya que la asimetría, como momento central, realmente no tiene sentido de otra manera.

Andy McKenzie

28

Considere distribuciones discretas. Uno que es compatible con los valores está determinado por las probabilidades no negativas sujeto a las condiciones que (a) suman 1 y (b) el coeficiente de asimetría es igual 0 (que es equivalente a que el tercer momento central sea cero). Eso deja grados de libertad (en el sentido de resolución de ecuaciones, ¡no el estadístico!). Podemos esperar encontrar soluciones que sean unimodales. $k$ $x_1, x_2,\ldots, x_k$ $p_1, p_2,\ldots, p_k$ $k-2$

Para facilitar la búsqueda de ejemplos, busqué soluciones compatibles con un pequeño vector simétrico con un modo único en , media cero y cero asimetría. Una de esas soluciones es . $\mathbf{x}=(-3,-2,-1,0,1,2,3)$ $0$ $(p_1, \ldots, p_7) = (1396, 3286, 9586, 47386, 8781, 3930, 1235)/75600$

Función de probabilidad

Puedes ver que es asimétrico.

Aquí hay una solución asimétrica más obvia con (que es asimétrica) y : $\mathbf{x} = (-3,-1,0,1,2)$ $p = (1,18, 72, 13, 4)/108$

Función de probabilidad 2

Ahora es obvio lo que está sucediendo: debido a que la media es igual a , los valores negativos contribuyen y al tercer momento, mientras que los valores positivos contribuyen y , equilibrando exactamente las contribuciones negativas. Podemos tomar una distribución simétrica de aproximadamente , como con , y cambiar una pequeña masa de a $0$ $(-3)^3=-27$ $18 \times (-1)^3=-18$ $4\times 2^3 = 32$ $13 \times 1^3 = 13$ $0$ $\mathbf{x}=(-1,0,1)$ $\mathbf{p}=(1,4,1)/6$ $+1$ $+2$ , una pequeña masa de a , y una pequeña cantidad de masa a , manteniendo la media en y la asimetría en , al tiempo que crea una asimetría. El mismo enfoque funcionará para mantener una media cero y una asimetría cero de una distribución continua mientras la hace asimétrica; Si no somos demasiado agresivos con el cambio de masa, seguirá siendo unimodal. $+1$ $-1$ $-3$ $0$ $0$

Editar: Distribuciones continuas

Debido a que el problema sigue surgiendo, demos un ejemplo explícito con distribuciones continuas. Peter Flom tuvo una buena idea: mirar mezclas de normales. Una combinación de dos normales no funcionará: cuando su asimetría desaparezca, será simétrica. El siguiente caso más simple es una mezcla de tres normales.

Las mezclas de tres normales, después de una elección adecuada de ubicación y escala, dependen de seis parámetros reales y, por lo tanto, deben tener una flexibilidad más que suficiente para producir una solución asimétrica de asimetría cero. Para encontrar algunos, necesitamos saber cómo calcular las asimetrías de mezclas de normales. Entre estos, buscaremos cualquiera que sea unimodal (es posible que no haya ninguno).

Ahora, en general, el momento (no central) de una distribución normal estándar es cero cuando es impar y de lo contrario es igual a . Cuando reescalamos esa distribución normal estándar para tener una desviación estándar de , el momento se multiplica por . Cuando cambiamos cualquier distribución por , el nuevo momento se puede expresar en términos de momentos hasta e incluyendo $r^\text{th}$ $r$ $2^{r/2}\Gamma\left(\frac{1-r}{2}\right)/\sqrt{\pi}$ $\sigma$ $r^\text{th}$ $\sigma^r$ $\mu$ $r^\text{th}$ $r$ . El momento de una mezcla de distribuciones (es decir, un promedio ponderado de ellas) es el mismo promedio ponderado de los momentos individuales. Finalmente, la asimetría es cero exactamente cuando el tercer momento central es cero, y esto se calcula fácilmente en términos de los primeros tres momentos.

Esto nos da un ataque algebraico al problema. Una solución que encontré es una mezcla igual de tres normales con parámetros igual a , y . Su media es igual a . Esta imagen muestra el pdf en azul y el pdf de la distribución volcó sobre su media en rojo. Que difieran muestra que ambos son asimétricos. (El modo es aproximadamente , desigual a la media de .) Ambos tienen sesgo cero por construcción . $(\mu, \sigma)$ $(0,1)$ $(1/2,1)$ $(0, \sqrt{127/18}) \approx (0, 2.65623)$ $(0 + 1/2 + 0)/3 = 1/6$ $0.0519216$ $1/6$

Ejemplos continuos

Las tramas indican que estos son unimodales. (Puede verificar usando Cálculo para encontrar máximos locales).

whuber
fuente

(+1) Respuesta muy hábil. ¿Funcionará esto con distribuciones continuas? ¿El cambio no crearía potencialmente pequeños modos pequeños? Puede que no esté pensando con claridad ...

Macro

1

Estás pensando bastante bien, Macro: todos deberíamos ser tan escépticos. El truco consiste en cambiar pequeñas cantidades repartidas en amplios rangos. Una prueba de primera derivada le permitirá verificar posibles modos y también proporciona la base para una prueba de que los cambios suficientemente pequeños de esta forma no producirán nuevos modos.

whuber

¡Gracias por la respuesta! Esto es similar a lo que estaba pensando intuitivamente, aunque no podía expresarlo bien con palabras: que hay que "equilibrar" la masa a cada lado de la distribución. Me hace preguntarme si hay formas estereotipadas en las que uno puede realizar este acto de equilibrio.

Andy McKenzie

Una forma, Andy, es comenzar con una solución discreta y luego convolucionarla con una distribución normal. En este caso, el requisito de unimodalidad obligará a esa distribución normal a tener una gran desviación estándar. Aun así, si la convolución no cambia apreciablemente las propiedades requeridas (como la asimetría cero), o la cambia de manera predecible, usted tiene un manejo matemático del problema. En cierto sentido, mi edición reciente se puede ver como un ataque de este tipo, aunque no es estrictamente una convolución (porque las tres normales tienen diferentes desviaciones estándar).

whuber

2

Lo he comprobado, Andy: hacer que la solución discreta con una distribución normal no cambie la asimetría. Cuando le das a esa distribución normal una desviación estándar de alrededor de 0.57 o mayor, el resultado es unimodal. Al igual que la distribución discreta subyacente, sigue teniendo media cero, asimetría cero y es asimétrica. Mezclar esto con una distribución normal estándar equivale a un movimiento controlado de masa entre la distribución normal estándar y la distribución discreta: eso podría satisfacer su solicitud de un método "estereotipado".

whuber

23

Aquí hay uno que encontré en https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html# que encuentro agradable y reproducido en R: una rebaba inversa o distribución Dagum con parámetros de forma y : $k=0.0629$ $c=18.1484$

g (x) = c k x^{- (c + 1)} [1 + x^{- c}]^{- (k + 1)}

$g(x) = ckx^{-(c+1)}[1+x^{-c}]^{-(k+1)}$

Tiene una media de 0.5387, desviación estándar de 0.2907, asimetría de 0.0000 y curtosis de 2.0000. La fuente también lo llama la "distribución del elefante":

Mi reproducción en R fue creada con

library(actuar)
library(knotR)

# a nonsymmetric distribution with zero skewness
# see https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html#

c <- 18.1484
k <- 0.0629

x <- seq(0,1.5,by=.0001)

elephant.density <- dinvburr(x, k, c)
plot(x,elephant.density, type="l")
polygon(c(min(x),x),c(min(elephant.density),elephant.density), col="grey")
points(0.8,0.8, pch=19, cex=2)

# "ears" created via https://www.desmos.com/calculator/cahqdxeshd
ear.x <- c(0.686, 0.501, 0.42, 0.68)
ear.y <- c(0.698, 0.315, 1.095, 0.983)

myseg(bezier(cbind(ear.x, ear.y)), type="l")

EX <- gamma(k+1/c)*gamma(1-1/c)/gamma(k) # see p6 of https://wwz.unibas.ch/uploads/tx_x4epublication/23_07.pdf
EX2 <- gamma(k+2/c)*gamma(1-2/c)/gamma(k)
EX3 <- gamma(k+3/c)*gamma(1-3/c)/gamma(k)
(skewness <- (EX3 - 3*EX*(EX2-EX^2)-EX^3)/(EX2-EX^2)^(3/2)) # zero to three digits: 0.0003756196

Como muestra esta salida, la asimetría no es del todo cero a cuatro dígitos para estos valores de parámetros. Aquí hay un pequeño optimizador para y : $k$ $c$

   # optimize skewness a bit further
    skewval <- 1

while (skewval > 10^(-10)){
  optskew.k <- uniroot(skewness.fun, lower = k*.95, upper = k*1.1, tol=skewval^2, c=c)
  skewval <- optskew.k$f.root
  k <- optskew.k$root

  optskew.c <- uniroot(skewness.fun, lower = c*.95, upper = c*1.1, tol=skewval^2, k=k)
  skewval <- optskew.c$f.root
  c <- optskew.c$root
}

flexible

> print(c)
[1] 18.89306

> print(k)
[1] 0.05975542

> print(skewval)
[1] -1.131464e-15

Christoph Hanck
fuente

Gracias por la edición Dicho esto, no pude reproducir la asimetría de 0.0000 a cuatro dígitos, obteniendo 0.0001245138 en su lugar (vea la próxima edición, en el código R).

Christoph Hanck

Probablemente se pueda ejecutar un optimizador simple para encontrar los valores de

y

modo que la asimetría sea lo más cercana posible a cero. Debería ser un par de líneas adicionales o tal vez incluso una. Ya tiene la función de pérdida calculada analíticamente en su última línea, ¿hay un optimizador genérico adecuado en R?

c

$c$

k

$k$

ameba dice Reinstate Monica

En realidad, 0.0003756196. 0.0001245138 ya estaba después de una optimización inicial, dada aquí por error. Echaré un vistazo.

Christoph Hanck

@amoeba, traté de optimizar un poco, pero no pretendo haberlo hecho de manera inteligente, tengo poca experiencia con la optimización.

Christoph Hanck

2

La oblicuidad de cero a tres dígitos (casi cuatro) era suficiente para mí; No es que un valor más preciso haga que se vea diferente. Si la asimetría cruzará cero en esa vecindad y está claro en qué direcciones ajustar los valores si se necesita más precisión, creo que es suficiente. Pero felicitaciones por el esfuerzo adicional. (Es un bello ejemplo, por cierto.)

Glen_b -Reinstate Mónica

9

Considere una distribución en la mitad positiva de la línea real que aumenta linealmente desde 0 al modo y luego es exponencial a la derecha del modo, pero es continua en el modo.

Esto podría llamarse una distribución triangular-exponencial (aunque a menudo se parece un poco a una aleta de tiburón).

$\theta$ $\lambda$

$\lambda\theta$ $\lambda\theta$ $\approx 6.15$

$^{[1]}$ $^{[2]}$

El hilo ¿ Distribuciones no normales con sesgo cero y exceso de curtosis cero? tiene algunos ejemplos asimétricos, incluido un pequeño ejemplo discreto y otro unimodal continuo:

Las distribuciones unimodales discretas, o de manera equivalente, muestras, con sesgo cero son bastante fáciles de construir, de tamaño grande o pequeño.

Aquí hay un ejemplo, que puede tratar como una muestra o (dividiendo las frecuencias sin procesar por 3000) como un pmf (los valores 'x' son los valores tomados, la 'n' es la cantidad de veces que ese valor ocurre en la muestra ):

x:  -2   -1    0    1    2    3    4    5    6    7    8    9   10
n: 496  498  562 1434    2    1    1    1    1    1    1    1    1

Este ejemplo está construido a partir de distribuciones de 3 puntos:

x:          -2              1                  c
n:   c(c-1)(c+1)/6     c(c-1)(c+1)/3 - c       1

$c$ $c$ $\sum_i n_ix_i =0$ $\sum_i n_ix_i^3 =0$ $c$

Hay toda clase de otros "átomos" que se pueden construir, pero este ejemplo usa solo este tipo. A alguna combinación de átomos como estos se agregan algunos valores colocados simétricamente para completar los agujeros restantes y garantizar la unimodalidad sin destruir la estructura de la media y el tercer momento.

$[1]$

$[2]$

Glen_b -Reinstate a Monica
fuente

3

¿Tal vez podría llamarlo "aleta de tiburón"?

Glen_b -Reinstate Monica

@Glen_b Totalmente Shark-fin de hecho.

Alecos Papadopoulos

2

Seguro. Prueba esto:

skew= function (x, na.rm = FALSE) 
 {
    if (na.rm)    x <- x[!is.na(x)]             #remove missing values
    sum((x - mean(x))^3)/(length(x) * sd(x)^3)  #calculate skew   
 }

set.seed(12929883) 
x = c(rnorm(100, 1, .1), rnorm(100, 3.122, .1), rnorm(100,5, .1), rnorm(100, 4, .1), rnorm(100,1.1, .1))

 skew(x)
 plot(density(x))

(¡Ya hiciste las cosas difíciles!)

Peter Flom - Restablece a Monica
fuente

1

Bien, me gusta. +1

gung - Restablecer a Monica

44

No es bimodal ... es horrible múltiples -modal. Intenta trazar la densidad; curve(0.2*(dnorm(x, 1, .1) + dnorm(x, 3.122, .1) + dnorm(x, 5, .1) + dnorm(x, 4, .1) + dnorm(x, 1.1, .1)), 0,10)

invitado

1

Los datos generados de esta manera ciertamente no son unimodales. Todo lo que necesita hacer para ver eso es cortar y pegar su código, textualmente. De hecho, una mezcla de variables normalmente distribuidas nunca será unimodal (a menos, por supuesto, que una de las proporciones de la mezcla sea 1).

Macro

8

@Macro, eso no es correcto. Ver, por ejemplo, el resumen de Roeder 1994 (JASA) para el conocido resultado de que "la densidad de dos normales mixtas no es bimodal a menos que las medias estén separadas por al menos 2 desviaciones estándar". Si están separados por menos que esto, la mezcla es unimodal.

invitado

1

Tienes razón @guest. Me había olvidado de esa posibilidad cuando hice mi publicación

Macro

2

mi [(\frac{X - μ}{σ})^{3}] = 0 0

$\operatorname{E}\Big[\big(\tfrac{X-\mu}{\sigma}\big)^{\!3}\, \Big] = 0$

mi [(\frac{X - μ}{σ})^{3} El | X \leq μ] + mi [(\frac{X - μ}{σ})^{3} El | X > μ] = 0.

$\operatorname{E}\Big[\big(\tfrac{X-\mu}{\sigma}\big)^{\!3}\, \Big | X \leq \mu \Big] + \operatorname{E}\Big[\big(\tfrac{X-\mu}{\sigma}\big)^{\!3}\, \Big | X \gt \mu \Big] = 0.$

$Y$ $Z$ $\mu$

mi [(\frac{Y - μ}{σ})^{3}] = mi [(\frac{Z - μ}{σ})^{3}]

$\operatorname{E}\Big[\big(\tfrac{Y-\mu}{\sigma}\big)^{\!3}\, \Big] = \operatorname{E}\Big[\big(\tfrac{Z-\mu}{\sigma}\big)^{\!3}\, \Big]$

X

$X$

Y

$Y$

μ

$\mu$

(μ - Z)

$(\mu - Z)$

$Y$ $Z$ $\mu$ $\mu$

krlmlr
fuente

1

¿Cómo garantiza que la distribución es unimodal?

Dilip Sarwate

Y

$Y$

Z

$Z$

μ

$\mu$

σ

$\sigma$

Y

$Y$

Z

$Z$

@whuber: Maldición. Sabía que tenía que haber alguna trampa ... :-)

krlmlr

2

La siguiente distribución discreta es asimétrica y tiene un sesgo nulo: Prob (-4) = 1/3, Prob (1) = 1/2, Prob (5) = 1/6. Lo encontré en el artículo de Doric et al., Qual Quant (2009) 43: 481-493; DOI 10.1007 / s11135-007-9128-9

Petitjean
fuente

+1 Se desprotege y es unimodal. Ese es el ejemplo más simple posible.

whuber

¿Alguien puede ofrecer un ejemplo de distribución unimodal que tenga un sesgo de cero pero que no sea simétrico?

Respuestas:

Editar: Distribuciones continuas