Distribución t que tiene una cola más pesada que la distribución normal

10

En mis apuntes dice:

La distribución t parece normal, aunque con colas ligeramente más pesadas.

Entiendo por qué se vería normal (debido al Teorema del límite central). Pero me cuesta entender cómo demostrar matemáticamente que tiene colas más pesadas que la distribución normal y si hay una manera de medir hasta qué punto es más pesada que la distribución normal.

hmi2015
fuente

Respuestas:

12

Lo primero que debe hacer es formalizar lo que queremos decir con "cola más pesada". Se podría observar qué tan alta es la densidad en la cola extrema después de estandarizar ambas distribuciones para tener la misma ubicación y escala (por ejemplo, desviación estándar):

ingrese la descripción de la imagen aquí
(de esta respuesta, que también es algo relevante para su pregunta )

[Para este caso, la escala realmente no importa al final; la t seguirá siendo "más pesada" de lo normal incluso si usa escalas muy diferentes; lo normal siempre baja más eventualmente]

Sin embargo, esa definición, aunque funciona bien para esta comparación en particular, no se generaliza muy bien.

En términos más generales, una definición mucho mejor está en la respuesta de Whuber aquí . Entonces, si tiene una cola más pesada que , a medida que vuelve suficientemente grande (para todo algo de ), entonces , donde , donde es el cdf (para más pesado) -tailed a la derecha; hay una definición similar y obvia en el otro lado).YXtt>t0SY(t)>SX(t)S=1FF

ingrese la descripción de la imagen aquí

Aquí está en la escala logarítmica y en la escala cuantil de lo normal, lo que nos permite ver más detalles:

ingrese la descripción de la imagen aquí

Entonces, la "prueba" de una mayor cola implicaría comparar cdfs y mostrar que la cola superior del t-cdf eventualmente siempre se encuentra por encima de la normal y la cola inferior del t-cdf finalmente siempre se encuentra por debajo de la normal.

En este caso, lo más fácil es comparar las densidades y luego mostrar que la posición relativa correspondiente de los cdf (/ funciones de supervivencia) debe seguir a partir de eso.

Entonces, por ejemplo, si puede argumentar que (en algún dado )ν

x2(ν+1)log(1+x2ν)>2log(k)

para la constante necesaria (una función de ), para todo algo , entonces sería posible establecer una cola más pesada para también en la definición en términos de más grande (o más grande en la cola izquierda)kνx>x0tν1FF

(esta forma se deduce de la diferencia del registro de las densidades, si eso mantiene la relación necesaria entre las densidades)

[En realidad, es posible mostrarlo para cualquier (no solo el particular que necesitamos proveniente de las constantes de normalización de densidad relevantes), por lo que el resultado debe mantenerse para el que necesitamos.]kk

Glen_b -Reinstate a Monica
fuente
1
Un gráfico con (y tal vez extendiendo un poco) podría demostrar las colas más pesadas con mayor claridad, y también podría funcionar con mayores grados de libertad,logS(x)x
Henry
1
@Henry generé tal diagrama pero no estaba seguro de cuánto valor agregaba, así que no lo incluí.
Pensaré en ponerlo
1
@ Henry incluí la trama.
Glen_b -Reinstala a Monica el
2

Una forma de ver la diferencia es mediante el uso de los momentosE{xn}.

Las colas "más pesadas" significarán valores más altos para los momentos de potencia pares (potencia 4, 6, 8), cuando la varianza es la misma. En particular, el momento del cuarto orden (alrededor de cero) se llama curtosis y compara en cierto sentido exacto el peso de las colas.

Ver Wikipedia para más detalles ( https://en.wikipedia.org/wiki/Kurtosis )

Dacian Bonta
fuente
1
Aunque para una distribución con o grados de libertad, la curtosis es infinita, mientras que con grados de libertad la desviación estándar es infinita, por lo que no puede calcular la curtosis, y con grado de libertad ni siquiera puede calcular la media o la ª momento. t34214
Henry
3
@ Henry Sin embargo, esta idea es buena. Expandir el CDF de la distribución Student alrededor de muestra que es asintóticamente proporcional a . Por lo tanto, todos los momentos absolutos de peso menor que existen y todos los momentos absolutos de peso mayor que divergen. Con la distribución Normal, todos los momentos absolutos existen. Esto proporciona un orden definido de las colas de todas las distribuciones Student y de la distribución Normal. En efecto, el parámetro proporciona una respuesta a la pregunta original sobre cómo medir el peso de una cola. t(ν)+xνννtν
whuber
2

Aquí hay una prueba formal basada en las funciones de supervivencia. Utilizo la siguiente definición de "cola más pesada" inspirada en wikipedia :

Una variable aleatoria con función de supervivencia tiene colas más pesadas que una variable aleatoria con función de supervivencia iff YSy(t)XSx(t)

limtSy(t)Sx(t)=

Considere una variable aleatoria distribuida como t de Student con media cero, grados de libertad y parámetro de escala . Comparamos esto con la variable aleatoria . Para ambas variables, las funciones de supervivencia son diferenciables. Por lo tanto, YνaXN(0,σ2)

limtSy(t)Sx(t)=limtfy(t)fx(t)=explimt(logfy(t)logfx(t))=explimt(ν+12log(1+t2νa2)(12σ2t2)+C)=exp(limtν+12log(1+t2νa2)(12σ2t2)+C)=exp(limt12σ2t2ν+12log(1+t2νa2)+C)=exp(12limua2σ2u(ν+1)log(1+uν)+C)=exp(12limuu(a2σ2(ν+1)log(1+uν)u+Cu))
Donde hemos sustituido . Tenga en cuenta que es una constante, y Por lo tanto, según el teorema del límite algebraico, u=t2/a20<a2/σ2<limuC/u=0
limu(ν+1)log(1+uν)u=limu(ν+1)(1)(1+uν)(ν)=0
limtSy(t)Sx(t)=exp(12limuu(a2σ2(0)+(0)))=

Es importante destacar que el resultado es válido para valores arbitrarios (finitos) de , y , por lo que puede tener situaciones en las que la distribución tiene una varianza menor que la normal, pero aún tiene colas más pesadas.aσ2ν

Will Townes
fuente
1
Solo una nota de que esta "definición" de colas más pesadas no siempre es aceptable. Por ejemplo, la distribución N (0,1), por esta definición, tiene colas más pesadas que la distribución .9999 * U (-1,1) + .0001 * U (-1000, 1000), aunque la última distribución produce valores ocasionales de hasta 175 desviaciones estándar de la media, a pesar de tener un soporte limitado. Por supuesto, el N (0,1) también produce tales valores, pero con probabilidades muy por debajo de lo que puede considerarse relevante para fines prácticos.
Peter Westfall