¿Cuál tiene la cola más pesada, lognormal o gamma?

41

(Esto se basa en una pregunta que me llegó por correo electrónico; agregué algo de contexto de una breve conversación anterior con la misma persona).

El año pasado me dijeron que la distribución gamma tiene una cola más pesada que la lognormal, y desde entonces me dijeron que ese no es el caso.

  • ¿Cuál es la cola más pesada?

  • ¿Cuáles son algunos recursos que puedo usar para explorar la relación?

Glen_b
fuente
3
Para la persona que acaba de votar: sería útil saber cuál es el problema percibido con la pregunta.
Glen_b
1
No fui yo, voté hace mucho tiempo. Sin embargo, sospecho que se trataba de la utilidad de la cola pesada frente a la curtosis en el contexto de los supuestos de la prueba t en presencia de valores atípicos, lo que no tiene absolutamente nada que ver con lo que solicitó. El voto negativo es, en mi humilde opinión, problemático .
Carl

Respuestas:

41

La cola (derecha) de una distribución describe su comportamiento en valores grandes. El objeto correcto de estudio no es su densidad - que en muchos casos prácticos no existe - sino más bien su función de distribución F . Más específicamente, debido a que F debe asintóticamente a 1 para argumentos grandes x (según la Ley de Probabilidad Total), estamos interesados ​​en qué tan rápido se acerca a esa asíntota: necesitamos investigar el comportamiento de su función de supervivencia 1F(x) como x .

FXG FGx0x>x0

PrF(X>x)=1F(x)>1G(x)=PrG(X>x).

Figura

La curva roja en esta figura es la función de supervivencia para una distribución de Poisson . La curva azul es para una distribución Gamma , que tiene la misma varianza. Eventualmente, la curva azul siempre excede la curva roja, lo que muestra que esta distribución Gamma tiene una cola más pesada que esta distribución de Poisson. Estas distribuciones no se pueden comparar fácilmente usando densidades, porque la distribución de Poisson no tiene densidad.(3)(3)

Es cierto que cuando las densidades de y existir y para entonces es más pesado de cola de . Sin embargo, lo contrario es falso, y esta es una razón convincente para basar la definición de pesadez de cola en las funciones de supervivencia en lugar de las densidades, incluso si a menudo el análisis de las colas se puede llevar a cabo más fácilmente utilizando las densidades.fgf(x)>g(x)x>x0FG

Los contraejemplos pueden construirse tomando una distribución discreta de soporte positivo ilimitado que, sin embargo, no tiene una cola más gruesa que (discretizar servirá). Convierta esto en una distribución continua reemplazando la masa de probabilidad de en cada uno de sus puntos de soporte , escrita , por (digamos) una distribución Beta escalada con soporte en un intervalo adecuado y ponderado por . Dado un pequeño número positivo elijaHGGHkh(k)(2,2)[kε(k),k+ε(k)]h(k)δ,ε(k)suficientemente pequeño para asegurar que la densidad máxima de esta distribución Beta escalada excede . Por construcción, la mezcla es una distribución continua cuya cola se parece a la de (es uniformemente un poco menor en una cantidad ) pero tiene picos en su densidad en el soporte de y todos esos picos tienen puntos donde exceden la densidad de . Por lo tanto es más ligero de cola de pero no importa lo lejos en la cola vamos habrá puntos donde su densidad es superior a la de .f(k)/δδH+(1δ)GGGδHfGFF

Figura

La curva roja es el PDF de una distribución Gamma , la curva dorada es el PDF de una distribución lognormal , y la curva azul (con puntas) es el PDF de una mezcla construida como en el contraejemplo. (Observe el eje de densidad logarítmica). La función de supervivencia de está cerca de la de una distribución Gamma (con movimientos rápidos de descomposición): eventualmente crecerá menos que la de , aunque su PDF siempre se disparará por encima de eso de sin importar cuán lejos entre las colas miremos.GFGGFF


Discusión

Por cierto, podemos realizar este análisis directamente sobre las funciones de supervivencia de las distribuciones lognormal y gamma, expandiéndolas alrededor de para encontrar su comportamiento asintótico, y concluir que todos los lognormales tienen colas más pesadas que todos los Gammas. Pero, debido a que estas distribuciones tienen densidades "agradables", el análisis se realiza más fácilmente al mostrar que para suficientemente grande , una densidad lognormal excede una densidad Gamma. Sin embargo, no confundamos esta conveniencia analítica con el significado de una cola pesada.x=x

Del mismo modo, aunque los momentos más altos y sus variantes (como la asimetría y la curtosis) dicen un poco sobre las colas, no proporcionan información suficiente. Como un simple ejemplo, podemos truncar cualquier distribución lognormal a un valor tan grande que cualquier número dado de sus momentos apenas cambie, pero al hacerlo, habremos eliminado su cola por completo, haciéndola más ligera que cualquier distribución con límites ilimitados. soporte (como un Gamma).

Una objeción justa a estas contorsiones matemáticas sería señalar que el comportamiento hasta ahora en la cola no tiene aplicación práctica, porque nadie creería que ningún modelo de distribución será válido en valores tan extremos (tal vez físicamente inalcanzables). Sin embargo, eso muestra que en las aplicaciones debemos tener cuidado para identificar qué parte de la cola es preocupante y analizarla en consecuencia. (Los tiempos de recurrencia de inundaciones, por ejemplo, pueden entenderse en este sentido: inundaciones de 10 años, inundaciones de 100 años e inundaciones de 1000 años caracterizan secciones particulares de la cola de la distribución de inundaciones). Sin embargo, se aplican los mismos principios: El objeto fundamental de análisis aquí es la función de distribución y no su densidad.

whuber
fuente
66
+1 excelente discusión de por qué debería basarse en la función de supervivencia. Le he recomendado a la fuente original de la pregunta que echen un vistazo a su respuesta.
Glen_b
1
(+1) para una buena discusión probabilística de cómo interpretar la función de supervivencia.
Esta definición de colas pesadas está bien, como una definición. Pero tiene serios problemas. En particular, hay distribuciones limitadas que posiblemente tengan colas pesadas, como una distribución .9999 * U (-1,1) + .0001 * U (-1000,1000). Según la "definición" dada, la distribución N (0,1) tiene colas más pesadas que la distribución .9999 * U (-1,1) + .0001 * U (-1000,1000). Esto es obviamente tonto. Seamos realistas: hay infinitas maneras de medir la distribución de cola.
Peter Westfall
1
@Peter La "tontería" surge porque parece haber entendido las ideas al revés. Ninguno de sus ejemplos tiene una cola "pesada" en ningún sentido, porque están delimitados. Ambas funciones de supervivencia finalmente son exactamente cero y, por lo tanto, ambas colas son igualmente ligeras.
whuber
1
@PeterWestfall Has comparado las colas que tienen soporte limitado con las que tienen soporte infinito, como si eso fuera significativo. Existen muchos contextos en los que eso sería innecesario, incluso tonto. En aquellos contextos en los que uno los compararía, una relación de diferencia cuantil puede ser apropiada. No hay muchos contextos más allá de esos y si puedes pensar en uno, dilo.
Carl
30

La gamma y la lognormal son distribuciones sesgadas, de coeficiente de variación constante en , y a menudo son la base de modelos "competidores" para tipos particulares de fenómenos.(0,)

Hay varias formas de definir el peso de una cola, pero en este caso creo que todas las habituales muestran que el lognormal es más pesado. (De lo que la primera persona podría haber estado hablando es de lo que sucede no en la cola lejana, sino un poco a la derecha del modo (por ejemplo, alrededor del percentil 75 en el primer gráfico a continuación, que para el lognormal está justo por debajo de 5 y la gamma justo por encima de 5.)

Sin embargo, exploremos la pregunta de una manera muy simple para comenzar.

A continuación se muestran las densidades gamma y lognormal con media 4 y varianza 4 (gráfico superior: gamma es verde oscuro, lognormal es azul), y luego el registro de la densidad (inferior), para que pueda comparar las tendencias en las colas:

ingrese la descripción de la imagen aquí

Es difícil ver muchos detalles en la gráfica superior, porque toda la acción está a la derecha de 10. Pero está bastante claro en la segunda gráfica, donde el gamma se dirige hacia abajo mucho más rápido que el lognormal.

Otra forma de explorar la relación es mirar la densidad de los registros, como en la respuesta aquí ; vemos que la densidad de los registros para el lognormal es simétrica (¡es normal!), y que para el gamma está sesgada a la izquierda, con una cola ligera a la derecha.

Podemos hacerlo algebraicamente, donde podemos ver la relación de densidades como (o el registro de la relación). Sea una densidad gamma y lognormal:xgf

log(g(x)/f(x))=log(g(x))log(f(x))

=log(1Γ(α)βαxα1ex/β)log(12πσxe(log(x)μ)22σ2)

=k1(α1)log(x)x/β(k2log(x)(log(x)μ)22σ2)

=[c(α2)log(x)+(log(x)μ)22σ2]x/β

El término en [] es un cuadrático en , mientras que el término restante disminuye linealmente en . No importa qué, ese eventualmente disminuirá más rápido que los aumentos cuadráticos independientemente de cuáles sean los valores de los parámetros . En el límite como , el logaritmo de la relación de densidades está disminuyendo hacia , lo que significa que el pdf gamma es finalmente mucho más pequeño que el pdf lognormal, y sigue disminuyendo, relativamente. Si toma la relación de la otra manera (con lognormal en la parte superior), eventualmente debe aumentar más allá de cualquier límite.log(x)xx/βx

Es decir, cualquier lognormal dado es eventualmente más pesado que cualquier gamma.


Otras definiciones de pesadez:

Algunas personas están interesadas en la asimetría o curtosis para medir el peso de la cola derecha. A un coeficiente de variación dado, el lognormal es más sesgado y tiene una curtosis más alta que la gamma . **

Por ejemplo, con asimetría , la gamma tiene una asimetría de 2CV mientras que la lognormal es 3CV + CV .3

Hay algunas definiciones técnicas de varias medidas de cuán pesadas son las colas aquí . Puede probar algunos de estos con estas dos distribuciones. Lognormal es un caso especial interesante en la primera definición: todos sus momentos existen, pero su MGF no converge por encima de 0, mientras que el MGF para el Gamma sí converge en una vecindad alrededor de cero.

-

** Como Nick Cox menciona a continuación, la transformación habitual para aproximar la normalidad de la gamma, la transformación Wilson-Hilferty, es más débil que el registro: es una transformación de raíz cúbica. En valores pequeños del parámetro de forma, se ha mencionado la cuarta raíz; en cambio, vea la discusión en esta respuesta , pero en cualquier caso es una transformación más débil para lograr casi la normalidad.

La comparación de asimetría (o curtosis) no sugiere ninguna relación necesaria en la cola extrema; en cambio, nos dice algo sobre el comportamiento promedio; pero puede por eso funcionar mejor si el punto original no se hizo sobre la cola extrema.


Recursos : es fácil usar programas como R o Minitab o Matlab o Excel o lo que quiera para dibujar densidades y densidades logarítmicas y registros de proporciones de densidades ... y así sucesivamente, para ver cómo van las cosas en casos particulares. Eso es con lo que sugeriría comenzar.

Glen_b
fuente
44
De hecho, sugiere eso, pero no hay una relación necesaria entre el pico, la cola pesada y la curtosis; Hay contraejemplos a tales expectativas, por lo que debemos tener cuidado. Sin embargo, la segunda trama confirma la sospecha.
Glen_b
55
Aquí hay una frase. Es una definición de que la transformación logarítmica es necesaria para normalizar lognormalmente; es una buena aproximación que una raíz cúbica hace que una gamma sea normal (Wilson-Hilferty son dos palabras para los sabios); la distribución que necesita una transformación más fuerte está "más lejos" de lo normal o gaussiano.
Nick Cox
2
@Glen_b Solo estoy agregando una pequeña decoración a un pastel muy bonito tuyo.
Nick Cox
2
@ Nick Cox No estoy en desacuerdo con las declaraciones sobre transformaciones. La parte matemáticamente ilegítima es la conclusión que intenta sacar: del hecho de que un logaritmo hace que el lognormal sea normal y una raíz cúbica hace que una gamma sea aproximadamente normal, no puede sacar ninguna conclusión sobre las colas de ninguno de los dos.
whuber
2
Gracias; Su punto es más claro para mí, pero sigo mi redacción de "regla general" e invoco también la experiencia. Claramente, no tengo un teorema.
Nick Cox
7

Aunque la curtosis está relacionada con la pesadez de las colas, contribuiría más a la noción de distribuciones de cola gorda , y relativamente menos a la pesadez de la cola, como muestra el siguiente ejemplo. Aquí, ahora regurgito lo que he aprendido en las publicaciones anteriores y posteriores, que son comentarios realmente excelentes. Primero, el área de una cola derecha es el área de x a de una función de densidad , AKA la función de supervivencia, . Para la distribución lognormal y la distribución gammaf(x)1F(t)e(log(x)μ)22σ22πσx;x0βαxα1eβxΓ(α);x0, comparemos sus respectivas funciones de supervivencia y gráficamente. Para hacer esto, configuro arbitrariamente sus respectivas variaciones y , así como sus respectivas curtosas en exceso y igual eligiendo y resuelto para . Esta espectáculos12erfc(log(x)μ2σ)Q(α,βx)=Γ(α,βx)Γ(α)(eσ21)e2μ+σ2αβ23e2σ2+2e3σ2+e4σ266αμ=0,σ=0.8α0.19128,β0.3354211-F (x) para LND en azul y GD en naranja

la función de supervivencia para la distribución lognormal (LND) en azul y la distribución gamma (GD) en naranja. Esto nos lleva a nuestra primera precaución. Es decir, si este gráfico fuera todo lo que examinaríamos, podríamos concluir que la cola para GD es más pesada que para LND. Que este no es el caso se muestra al extender los valores del eje x de la gráfica, por lo tanto 1-F (x) para LND y GD gráfico más largo

Este gráfico muestra que 1) incluso con curtosis iguales, las áreas de la cola derecha de LND y GD pueden diferir. 2) Esa interpretación gráfica por sí sola tiene sus peligros, ya que solo puede mostrar resultados para valores de parámetros fijos en un rango limitado. Por lo tanto, es necesario encontrar expresiones generales para la relación de función de supervivencia limitante de . No pude hacer esto con expansiones de series infinitas. Sin embargo, pude hacer esto usando el intermediario de funciones terminales o asintóticas, que no son funciones únicas y donde para las colas de la mano derecha entonces es suficiente para ylimxS(LND,x)S(GD,x)limxF(x)G(x)=1F(x)G(x)ser mutuamente asintótico. Con el cuidado apropiado para encontrar estas funciones, esto tiene el potencial de identificar un subconjunto de funciones más simples que las funciones de supervivencia en sí, que se pueden compartir o mantener en común con más de una función de densidad, por ejemplo, dos funciones de densidad diferentes pueden compartir Una cola exponencial limitante. En la versión anterior de esta publicación, esto es a lo que me refería como la "complejidad adicional de comparar funciones de supervivencia". Tenga en cuenta que, y (Incidentalmente y no necesariamente ylimuerfc(u)eu2πu=1limuΓ(α,u)euuα1=1erfc(u)<eu2πuΓ(α,u)<euuα1 . Es decir, no es necesario elegir un límite superior, solo una función asintótica). Aquí escribimos y donde la relación de los términos de la mano derecha tiene el mismo límite que como los términos de la mano izquierda. Simplificando la relación limitante de los rendimientos de los términos de la mano derecha12erfc(log(x)μ2σ)<e(log(x)μ2σ)22(π(log(x)μ))2σΓ(α,βx)Γ(α)<eβx(βx)α1Γ(α)xlimxσΓ(α)(βx)1αeβx(μlog(x))22σ22π(log(x)μ)= lo que significa que para x suficientemente grande, el área de cola LND es tan grande como queramos en comparación con el área de cola GD, independientemente de los valores de los parámetros. Eso plantea otro problema, no siempre tenemos soluciones que sean verdaderas para todos los valores de los parámetros, por lo que usar solo ilustraciones gráficas puede ser engañoso. Por ejemplo, el área de cola derecha de la distribución gamma es mayor que el área de cola de la distribución exponencial cuando , menor que exponencial cuando y el GD es exactamente una distribución exponencial cuando .α<1α>1α=1

¿De qué sirve entonces tomar los logaritmos de la razón de las funciones de supervivencia, ya que obviamente no necesitamos tomar logaritmos para encontrar una razón límite? Muchas funciones de distribución contienen términos exponenciales que parecen más simples cuando se toma el logaritmo, y si la relación llega al infinito en el límite a medida que x aumenta, entonces el logaritmo también lo hará. En nuestro caso, eso nos permitiría inspeccionar , que algunas personas encontrarían más simple de ver. Por último, si la proporción de funciones de supervivencia llega a cero, entonces el logaritmo de esa proporción irá alimx(log(σΓ(α)(βx)1α2π(log(x)μ))+βx(μlog(x))22σ2)=, y en todos los casos después de encontrar el límite de un logaritmo de una relación, tenemos que tomar el antilogaritmo de ese valor para comprender su relación con el valor límite de la relación ordinaria de la función de supervivencia.

Carl
fuente
2
En este caso (y muy a menudo en casos de interés), la curtosis más alta corresponde a una cola más pesada, pero como proposición general este no es el caso: los contraejemplos son fáciles de construir.
Glen_b
1
1. No conozco ninguna forma general de comparar directamente las colas. 2. ¿Qué es lo que es más complicado? la respuesta de whuber nos muestra por qué hay un problema al mirar cualquier cosa menos la función de sobreviviente (para la cola derecha); explica por qué no se pueden comparar archivos PDF en detalle, pero puntos similares se trasladan a la curtosis. Además, comparar menudo es mucho menos complicado que comparar la curtosis también. (En la cola izquierda compararía directamente, pero eso no fue un problema para esta pregunta.)S(x)=1F(x)F(x)
Glen_b
2
También noto que usted dice "Esto tiene algo que ver con un teorema de momentos que dice que si (¿todos?) Los momentos de dos distribuciones son iguales, entonces las distribuciones son idénticas". - incluso si todos los momentos de dos distribuciones son iguales, las distribuciones no son necesariamente idénticas. Los contraejemplos se discuten en las respuestas a varias preguntas aquí en CV. Necesita más que todos los momentos iguales: necesita que el MGF exista en un vecindario de 0.
Glen_b
1
@PeterWestfall El soporte semi-infinito a menudo se supone, por ejemplo, como para las concentraciones de fármaco en el plasma sanguíneo. En ese caso, el peso de la cola determinaría si el tiempo medio de residencia del fármaco en el cuerpo mide algo (por ejemplo, distribución exponencial) o no (por ejemplo, algunas distribuciones de Pareto). 0t<
Carl
1
@ PeterWestfall Entiendo tu punto, similar a nma.berkeley.edu/ark:/28722/bk000471p7j . Es importante recordar que cada distribución implica diferentes medidas para diferentes cosas. Por ejemplo, el valor extremo promedio es MVUE para la ubicación de una distribución uniforme, no la media y no la mediana. Entre esos valores extremos, las colas son pesadas, pero fuera de ellas, las colas son zip. Lo que eso tiene que ver con un momento más alto como la curtosis, cuando el primer momento no es MVUE, no me aventuraría a adivinar. Algo, tal vez, pero ¿qué?
Carl