Kurtosis de distribución inventada

8

Hecha un vistazo a la imagen de abajo. La línea azul indica pdf normal estándar. Se supone que la zona roja es igual a la suma de las áreas grises (perdón por un dibujo horrible).

Me pregunto ¿podemos crear una nueva distribución con un pico más alto al cambiar las zonas grises a la parte superior (zona roja) del pdf normal?

nueva distribución con mayor pico

Si se puede hacer tal transformación, ¿qué piensas sobre la curtosis de esta nueva distribución? Leptokurtic? ¡Pero tiene las mismas colas que la distribución normal! Indefinido?

Yal dc
fuente
1
La pregunta es hermosa, pero el dibujo es realmente horrible. Se supone que la distribución más nítida de kurtic de lo normal es de cola más pesada. Pero no dibujaste estas regiones de cola (que también deberían ser de color rojo). ¿Cuáles son las áreas que supone sumar?
ttnphns
1
¿Por qué no probarlo? Simule (digamos) 10,000 de una normal estándar, luego mueva algunos números para hacer la distribución que desee. Luego, podría dibujar la línea con un programa y calcular la curtosis también.
Peter Flom
Si está preparado para sacrificar la diferenciabilidad de la densidad, entonces podría construir dicha distribución (que tendría una densidad por partes).
Alecos Papadopoulos
2
@ttnphns, perdón si la etiqueta te engañó. Esperaba que esa imagen dejara en claro que no quiero ningún cambio en las colas. Por lo general, los libros de texto discuten la curtosis comparando el cambio simultáneo en el pico y las colas. Quiero entender lo que se puede decir sobre la curtosis cuando solo el pico se vuelve más alto.
Yal dc
1
Yal dc: debe tener en cuenta que su desviación estándar ha cambiado, por lo que las 'colas' no son las mismas a menos que use algunas definiciones particulares detail
Glen_b -Reinstate Monica

Respuestas:

12

Habrá un número infinito de distribuciones que se parecen mucho a su dibujo, con una variedad de valores diferentes para la curtosis.

Con las condiciones particulares en su pregunta y dado, mantenemos el punto de cruce para estar adentro, o al menos no muy lejos afuera±1, debe darse el caso de que tenga una curtosis un poco más grande que la normal. Mostraré tres casos donde eso sucede, y luego mostraré uno donde es más pequeño , y explicaré qué hace que suceda.

Dado que ϕ(x) y Φ(x) son los estándares normales pdf y cdf respectivamente, escribamos una pequeña función

f(x)={ϕ(x);|x|>ta+b.g(x);|x|t 

para alguna densidad simétrica continua g (con el cdf correspondiente G), con media 0, de modo que y .b=Φ(t)½t.ϕ(t)G(t)½t.g(t)a=ϕ(t)b.g(t)

Es decir, y se eligen para hacer que la densidad sea continua e integrarse a .ab1

Ejemplo 1 Considerey,sol(X)=3ϕ(3X)t=1

ingrese la descripción de la imagen aquí

que se parece a tu dibujo, aquí generado por el siguiente código R:

f <- function(x, t=1,
              dg=function(x) 2*dnorm(2*x),
              pg=function(x) pnorm(2*x),
              b=(pnorm(t) - 0.5 - t*dnorm(t))/ (pg(t) - 0.5 - t*dg(t)),
              a=dnorm(t)-b*dg(t) ) {
       ifelse(abs(x)>t,dnorm(x),a+b*dg(x))
     }

f1 <- function(x) f(x,t=1,dg=function(x) 3*dnorm(3*x),pg=function(x) pnorm(3*x))
curve(f1,-4,4,col=2)
lines(x,dnorm(x),col=3)

Ahora los cálculos. Hagamos una función para evaluar :XpagsF1(X)

fp <- function(x,p=2) x^p*f1(x)

para que podamos evaluar los momentos. Primero la varianza:

 integrate(fp,-Inf,Inf)  # should be just smaller than 1
0.9828341 with absolute error < 1.4e-07

Luego el cuarto momento central:

 integrate(fp,-Inf,Inf,p=4) # should be just smaller than 3
2.990153 with absolute error < 8.3e-06

Necesitamos la proporción de esos números, que debe tener una precisión de aproximadamente 5 cifras

 integrate(fp,-Inf,Inf,p=4)$value/(integrate(fp,-Inf,Inf)$value^2)
[1] 3.095515

Entonces la curtosis es aproximadamente 3.0955, un poco más grande que para el caso normal.

Por supuesto, podríamos calcularlo algebraicamente y obtener una respuesta exacta, pero no hay necesidad, esto nos dice lo que queremos saber.


Ejemplo 2 Con la funcióndefinida anteriormente, podemos probarla para todo tipo de's.Fsol

Aquí está el Laplace:

library(distr)
D <- DExp(rate = 1) 
f2 <- function(x) f(x,t=1,dg=d(D),pg=p(D))
curve(f2,-4,4,col=2)
lines(x,dnorm(x),col=3)

ingrese la descripción de la imagen aquí

fp2 <- function(x,p=2) x^p*f2(x)


 integrate(fp2,-Inf,Inf)  # should be just smaller than 1
0.9911295 with absolute error < 1.1e-07
 integrate(fp2,-Inf,Inf,p=4) # should be just smaller than 3
2.995212 with absolute error < 5.9e-06
 integrate(fp2,-Inf,Inf,p=4)$value/(integrate(fp2,-Inf,Inf)$value^2)
[1] 3.049065

Como era de esperar, un resultado similar.


Ejemplo 3 : Consideremos quees una distribución de Cauchy (una distribución de Student-t con 1 df), pero con escala 2/3 (es decir, sies un Cauchy estándar,, y nuevamente establezca el umbral, t (dando los puntos,, fuera de los cuales 'cambiamos' a la normalidad), a ser 1.solh(X)sol(X)=1,5h(1,5X)±t

dg <- function(x) 1.5*dt(1.5*x,df=1)
pg <- function(x) pt(1.5*x,df=1)

f3 <- function(x) f(x,t=1,dg=dg,pg=pg)
curve(f3,-4,4,col=2)
lines(x,dnorm(x),col=3)

ingrese la descripción de la imagen aquí

fp3 <- function(x,p=2) x^p*f3(x)

 integrate(fp3,-Inf,Inf)  # should be just smaller than 1
0.9915525 with absolute error < 1.1e-07

 integrate(fp3,-Inf,Inf,p=4) # should be just smaller than 3
2.995066 with absolute error < 6.2e-06

 integrate(fp3,-Inf,Inf,p=4)$value/(integrate(fp2,-Inf,Inf)$value^2)
[1] 3.048917

Y solo para demostrar que realmente tenemos una densidad adecuada:

 integrate(f3,-Inf,Inf)
1 with absolute error < 9.4e-05

Ejemplo 4 : Sin embargo , ¿qué sucede cuando cambiamos t ?

Tome y como el ejemplo anterior, pero cambie el umbral a :solsolt=2

f4 <- function(x) f(x,t=2,dg=dg,pg=pg)
curve(f4,-4,4,col=2)
lines(x,dnorm(x),col=3)

ingrese la descripción de la imagen aquí

fp4 <- function(x,p=2) x^p*f4(x)

 integrate(fp4,-Inf,Inf,p=4)$value/(integrate(fp2,-Inf,Inf)$value^2)
[1] 2.755231

¿Como sucedió esto?

Bueno, es importante saber que la curtosis es (hablando ligeramente) la varianza al cuadrado sobre :μ±σ

ingrese la descripción de la imagen aquí

Las tres distribuciones tienen la misma media y varianza.

La curva negra es la densidad normal estándar. La curva verde muestra una distribución bastante concentrada sobre (es decir, la varianza sobre es pequeña, lo que lleva a una curtosis que se aproxima a 1, la más pequeña posible). La curva roja muestra un caso en el que la distribución se "aleja" de ; esa es la curtosis es grande.μ±σμ±σμ±σ

Con eso en mente, si establecemos los puntos de umbral lo suficientemente fuera de , podemos empujar la curtosis por debajo de 3 y aún así tener un pico más alto.μ±σ

Glen_b -Reinstate a Monica
fuente
increíble trabajo. Gracias. Una pregunta más, si no le importa: ¿hay alguna regla para decidir dónde termina un pico y dónde comienzan las colas?
Yal dc
1
Realmente no. Si nos limitamos al caso unimodal simétrico continuo con un cuarto momento finito (ya que estamos discutiendo curtosis), en muchos casos no creo que tenga mucho sentido llamar a nada fuera de 'el pico' ni cualquier cosa dentro de 'la cola', pero a veces es difícil de decir. por ejemplo, considere ; cuando está cerca de , no hay un lugar obvio para comenzar a llamar a la cola. Por otro lado, con la distribución de Laplace, podría decirse que cualquier cosa a ambos lados del centro exacto es la cola. μ±σ μ±σF(X)=(3+2una)/ /6 6-unaX2; -1<X<1,0 0<una<34 4una0 0
Glen_b -Reinstate Monica
4

La curtosis es un concepto bastante incomprendido (encuentro el artículo de LT De Carlo "Sobre el significado y el uso de la curtosis" (1997) una discusión sensata y valiosa y una presentación de los temas involucrados).

Así que tomaré la visión ingenua, y construiré una densidad, , con "valor medio y alto más delgados en el modo", en comparación con la densidad normal estándar, pero idénticas "colas" con este último. Yo no pretendo que este exhibe densidad "exceso de curtosis". solX(X)

Esta densidad será necesariamente escalonada. Para tener "colas" izquierda y derecha idénticas, su forma funcional para los intervalos y , donde , debe ser idéntica a la normal normal densidad. En el intervalo medio, , debe tener alguna otra forma funcional, llámelo . Esta debe ser simétrica alrededor de cero y satisfacer (-,-una)(una,)una>0 0ϕ(X)(-una,una)h(X)h(X)

1) para que el valor de la densidad en el modo sea mayor que el valor de la normal estándar, y h(0 0)>ϕ(0 0)=1/ /2π

2) para que sea ​​continuo. ϕ(-una)=h(-una)=h(una)=ϕ(una)solX(X)

Más aún, debería integrarse a la unidad sobre el dominio, para ser una densidad adecuada. Entonces esta densidad serásolX(X)

solX(X)=ϕ(X)-<X-unah(X)-unaXunaϕ(X)unaX<

sujeto a las restricciones mencionadas anteriormente en y también, sujeto a h(X)

--unaϕ(t)ret+-unaunah(t)ret+unaϕ(t)ret=1

lo que equivale a requerir que la masa de probabilidad debajo de en el intervalo debe ser igual a la masa de probabilidad debajo de en el mismo intervalo:h(X)(-una,una)ϕ(X)

-una-una(h(t)-ϕ(t))ret=0 00 0una(h(t)-ϕ(t))ret=0 0
la última parte debido a las propiedades de simetría.

Para obtener algo específico, "intentaremos" la densidad de la distribución de Laplace media cero parah(X)

h(X)=12simi-El |XEl |si,si>0 0

Para satisfacer los diversos requisitos establecidos anteriormente, debemos tener:

Para un valor más alto en el modo,

h(0 0)=12si>ϕ(0 0)=12π0 0<si<π/ /2[1]

Para continuidad,

h(una)=ϕ(una)12simi-unasi=12πmi-12una2
-En(2si)-unasi=-En(2π)-12una212una2-unasi+Enπ/ /2si

Esta es una cuadrática en . Su discriminante es una

Δuna=1si2-4 412Enπ/ /2si>0 0

(se puede verificar fácilmente que siempre es positivo). Más encima, mantenemos solamente la raíz positiva, ya que por louna>0 0

una=1si+Δuna[2]

Finalmente, el requisito de que la densidad se integre a la unidad se traduce en

0 0una12simi-El |XEl |siret=0 0unaϕ(t)ret

que por integración directa conduce a

1-mi-unasi=2(Φ(una)-12)=erf(una/ /2)[3]

que se puede resolver numéricamente para , y así determinar completamente la densidad que buscamos. si

Por supuesto, se podrían probar otras formas funcionales simétricas alrededor de cero, el pdf laplaciano era solo para fines de exposición.

Alecos Papadopoulos
fuente
1
El artículo que mencionaste me pareció muy informativo. Gracias.
Yal dc
1
Una advertencia sobre el artículo de DeCarlo: la primera oración del resumen es matemáticamente incorrecta. Afirma: "Para las distribuciones simétricas unimodales, la curtosis positiva indica colas pesadas y pico en relación con la distribución normal, mientras que la curtosis negativa indica colas ligeras y planitud". Pero hay distribuciones unimodales simétricas con exceso de curtosis negativa que tienen picos infinitos, y hay distribuciones unimodales simétricas con curtosis infinita que tienen picos perfectamente planos.
Peter Westfall
0

La curtosis de esta distribución probablemente será mayor que la de una distribución normal. Digo probablemente porque estoy basando esto en un dibujo aproximado, y aunque podría ser posible demostrar que mover la masa de esta manera siempre aumenta la curtosis, no estoy seguro de eso.

Aunque es cierto que tiene las mismas colas que una distribución normal, esta distribución tendrá una varianza menor que la distribución normal de la que se deriva. Lo que significa que sus colas coincidirán con las colas de alguna distribución normal, pero no de una distribución normal con la misma variación. Entonces, las colas normalizadas serán de hecho más gruesas que las colas de una distribución normal. Y, aunque las colas más gruesas no significan automáticamente más curtosis, en este caso el cuarto momento normalizado probablemente también sea más grande.

mpr
fuente
Estoy de acuerdo en que la varianza será menor. Desafortunadamente, no entendí cómo el cambio en la varianza influye en las colas. Recuerda que no le hice nada a las colas. Los puntos desplazados se tomaron cerca del pico, no desde las colas. ¿Podría ayudarme a entender su punto?
Yal dc
1
La curtosis se define en términos del cuarto momento normalizado, donde la normalización se realiza dividiendo por el cuadrado de la varianza. Como el cuadrado de la varianza disminuye, la curtosis aumenta. En términos de colas, es cierto que no cambian. Sin embargo, dado que la varianza se ha reducido, para obtener la comparación correcta, debe comparar su distribución con una distribución normal que tenga la misma varianza que la suya. Esta otra distribución normal tendrá colas más delgadas, porque su varianza es menor.
mpr
En ese caso, estoy de acuerdo. La pregunta que queda es ¿cómo determinó cuál es " la comparación correcta "? ¿Es una regla que deberíamos usar distribuciones con una varianza similar para comparar sus otras propiedades? Nunca he conocido tal principio antes.
Yal dc
1
La variación es la forma estándar de normalizar las distribuciones. Usted preguntó específicamente sobre la curtosis y, como he dicho, la curtosis se define en función del cuarto momento normalizado, lo que significa que si está interesado en comparar la curtosis, entonces sí, debe comparar las distribuciones con la misma varianza.
mpr
Ahora entiendo. De hecho, cualquier distribución normal tiene curtosis constante, mientras que su varianza puede diferir. Gracias por la aclaración.
Yal dc
0

Parece que el OP está tratando de establecer una conexión entre el "pico" y la curtosis manteniendo las colas fijas y haciendo que la distribución sea más "pico". Aquí hay un efecto sobre la curtosis, pero es tan leve que apenas merece una mención. Aquí hay un teorema para apoyar esa afirmación.

Teorema 1: considere cualquier distribución de probabilidad con cuarto momento finito. Construya una nueva distribución de probabilidad reemplazando la masa en el rango , manteniendo la masa fuera de fija y manteniendo la media y desviación estándar en . Entonces, la diferencia entre los valores mínimos y máximos de curtosis de momento de Pearson sobre todos estos reemplazos es .[μ-σ,μ+σ][μ-σ,μ+σ]μ,σ0.25

Comentario: la prueba es constructiva; en realidad puede identificar los reemplazos de curtosis mínima y máxima en esta configuración. Además, 0.25 es un límite superior en el rango de curtosis, dependiendo de la distribución. Por ejemplo, con una distribución normal, el límite del rango es 0.141, en lugar de 0.25.

Por otro lado, hay un gran efecto de las colas en la curtosis, como lo indica el siguiente teorema:

Teorema 2: considere cualquier distribución de probabilidad con cuarto momento finito. Construya una nueva distribución de probabilidad reemplazando la masa fuera del rango , manteniendo la masa en fija, y manteniendo la media y desviación estándar en . Entonces, la diferencia entre los valores de curtosis de momento Pearson mínimo y máximo sobre todos estos reemplazos es ilimitada; es decir, la nueva distribución se puede elegir para que la curtosis sea arbitrariamente grande.[μ-σ,μ+σ][μ-σ,μ+σ]μ,σ

Comentario: Estos dos teoremas muestran que el efecto de las colas en la curtosis de momento de Pearson es infinito, mientras que el efecto de "pico" es .0.25

Peter Westfall
fuente