¿Curtosis gigantesca?

10

Estoy haciendo algunas estadísticas descriptivas de los rendimientos diarios de los índices bursátiles. Es decir, si y P 2 son los niveles del índice en el día 1 y el día 2, respectivamente, entonces l o g e ( P 2P1P2es el retorno que estoy usando (completamente estándar en la literatura).loge(P2P1)

Entonces la curtosis es enorme en algunos de estos. Estoy viendo alrededor de 15 años de datos diarios (alrededor de observaciones de series de tiempo)26015

                      means     sds     mins    maxs     skews     kurts
ARGENTINA          -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532
AUSTRIA             0.00003 0.00640 -0.03845 0.04621   0.19614   2.36104
CZECH.REPUBLIC      0.00008 0.00800 -0.08289 0.05236  -0.16920   5.73205
FINLAND             0.00005 0.00639 -0.03845 0.04622   0.19038   2.37008
HUNGARY            -0.00019 0.00880 -0.06301 0.05208  -0.10580   4.20463
IRELAND             0.00003 0.00641 -0.03842 0.04621   0.18937   2.35043
ROMANIA            -0.00041 0.00789 -0.14877 0.09353  -1.73314  44.87401
SWEDEN              0.00004 0.00766 -0.03552 0.05537   0.22299   3.52373
UNITED.KINGDOM      0.00001 0.00587 -0.03918 0.04473  -0.03052   4.23236
                   -0.00007 0.00745 -0.09124 0.06405  -1.82381  63.20596
AUSTRALIA           0.00009 0.00861 -0.08831 0.06702  -0.74937  11.80784
CHINA              -0.00002 0.00072 -0.40623 0.02031   6.26896 175.49667
HONG.KONG           0.00000 0.00031 -0.00237 0.00627   2.73415  56.18331
INDIA              -0.00011 0.00336 -0.03613 0.03063  -0.22301  10.12893
INDONESIA          -0.00031 0.01672 -0.24295 0.19268  -2.09577  54.57710
JAPAN               0.00008 0.00709 -0.03563 0.06591   0.57126   5.16182
MALAYSIA           -0.00003 0.00861 -0.35694 0.13379 -16.48773 809.07665

Mi pregunta es: ¿hay algún problema?

Quiero hacer un extenso análisis de series de tiempo sobre estos datos: OLS y análisis de regresión Cuantil, y también Granger Causality.

Tanto mi respuesta (dependiente) como el predictor (regresor) tendrán esta propiedad de curtosis gigantesca. Entonces tendré estos procesos de retorno a ambos lados de la ecuación de regresión. Si la no normalidad se extiende a las perturbaciones, eso solo hará que mis errores estándar tengan una gran varianza, ¿verdad?

(¿Tal vez necesito un sesgo de arranque robusto?)


fuente
3
1) Es posible que desee mover esto al sitio quant.stackexchange.com. 2) ¿Qué quieres decir con problema? Existe toda una literatura sobre el impacto de los valores atípicos en los momentos. A menudo puede ser más un arte que una ciencia.
John
2
"¿Hay algún problema?" es muy vago ¿Qué quieres hacer con estos datos? Sus enormes curtosis están asociadas con una gran inclinación hacia la izquierda. Dado que log (p2 / p1) = log p2 - log p1, un gran sesgo a la izquierda indica que hubo algunas veces cuando esto fue muy bajo, es decir, p1 mucho más alto que p2, en comparación con el caso habitual. Podría ser una empresa en quiebra o algo así.
Peter Flom - Restablece a Monica
Lo siento, he modificado mi OP.
1
Los retornos de registro son típicamente sesgados y de cola pesada. Por esta razón, se prefiere considerar distribuciones flexibles que puedan capturar este comportamiento. Ver por ejemplo 1 y 2 .
Deberías echar un vistazo a las medidas de kutosis basadas en momentos L
kjetil b halvorsen

Respuestas:

2

Eche un vistazo a las distribuciones Lambert W x F de cola pesada o las distribuciones asimétricas Lambert W x F intente (descargo de responsabilidad: soy el autor). En R se implementan en el paquete LambertW .

Artículos Relacionados:

yX

Aquí hay un ejemplo de las estimaciones Lambert W x Gaussian aplicadas a los rendimientos de los fondos de capital.

library(fEcofin)
ret <- ts(equityFunds[, -1] * 100)
plot(ret)

Series temporales de fondos de capital

Las métricas de resumen de los retornos son similares (no tan extremas) como en la publicación de OP.

data_metrics <- function(x) {
  c(mean = mean(x), sd = sd(x), min = min(x), max = max(x), 
    skewness = skewness(x), kurtosis = kurtosis(x))
}
ret.metrics <- t(apply(ret, 2, data_metrics))
ret.metrics

##          mean    sd    min   max skewness kurtosis
## EASTEU 0.1300 1.538 -18.42 12.38   -1.855    28.95
## LATAM  0.1206 1.468  -6.06  5.66   -0.434     4.21
## CHINA  0.0864 0.911  -4.71  4.27   -0.322     5.42
## INDIA  0.1515 1.502 -12.72 14.05   -0.505    15.22
## ENERGY 0.0997 1.187  -5.00  5.02   -0.271     4.48
## MINING 0.1315 1.394  -7.72  5.69   -0.692     5.64
## GOLD   0.1098 1.855 -10.14  6.99   -0.350     5.11
## WATER  0.0628 0.748  -5.07  3.72   -0.405     6.08

La mayoría de las series muestran características claramente no normales (asimetría fuerte y / o curtosis grande). Gaussianicemos cada serie usando una distribución Lambert W x Gaussian de cola pesada (= Tukey's h) usando un estimador de métodos de momentos ( IGMM).

library(LambertW)
ret.gauss <- Gaussianize(ret, type = "h", method = "IGMM")
colnames(ret.gauss) <- gsub(".X", "", colnames(ret.gauss))

plot(ts(ret.gauss))

trama de series de tiempo de retornos gaussianizados

Las gráficas de series de tiempo muestran muchas menos colas y también una variación más estable a lo largo del tiempo (aunque no constante). Calcular nuevamente las métricas en las series de tiempo gaussianizadas produce:

ret.gauss.metrics <- t(apply(ret.gauss, 2, data_metrics))
ret.gauss.metrics

##          mean    sd   min  max skewness kurtosis
## EASTEU 0.1663 0.962 -3.50 3.46   -0.193        3
## LATAM  0.1371 1.279 -3.91 3.93   -0.253        3
## CHINA  0.0933 0.734 -2.32 2.36   -0.102        3
## INDIA  0.1819 1.002 -3.35 3.78   -0.193        3
## ENERGY 0.1088 1.006 -3.03 3.18   -0.144        3
## MINING 0.1610 1.109 -3.55 3.34   -0.298        3
## GOLD   0.1241 1.537 -5.15 4.48   -0.123        3
## WATER  0.0704 0.607 -2.17 2.02   -0.157        3

IGMM3Gaussianize()scale()

Regresión bivariada simple

rEASTEU,trINDIA,t

layout(matrix(1:2, ncol = 2, byrow = TRUE))
plot(ret[, "INDIA"], ret[, "EASTEU"])
grid()
plot(ret.gauss[, "INDIA"], ret.gauss[, "EASTEU"])
grid()

diagrama de dispersión INDIA y EASTEU

El diagrama de dispersión de la izquierda de la serie original muestra que los valores atípicos fuertes no ocurrieron en los mismos días, sino en diferentes momentos en India y Europa; aparte de eso, no está claro si la nube de datos en el centro no admite correlación o dependencia negativa / positiva. Dado que los valores atípicos afectan fuertemente las estimaciones de varianza y correlación, vale la pena observar la dependencia con colas pesadas eliminadas (diagrama de dispersión derecho). Aquí los patrones son mucho más claros y la relación positiva entre India y el mercado de Europa del Este se hace evidente.

# try these models on your own
mod <- lm(EASTEU ~ INDIA * CHINA, data = ret)
mod.robust <- rlm(EASTEU ~ INDIA, data = ret)
mod.gauss <- lm(EASTEU ~ INDIA, data = ret.gauss)

summary(mod)
summary(mod.robust)
summary(mod.gauss)

Causalidad de Granger

VAR(5)p=5

library(vars)  
mod.vars <- vars::VAR(ret[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars, "INDIA")$Granger


## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars
## F-Test = 3, df1 = 5, df2 = 3000, p-value = 0.02

causality(mod.vars, "EASTEU")$Granger
## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars
## F-Test = 4, df1 = 5, df2 = 3000, p-value = 0.003

Sin embargo, para los datos gaussianizados la respuesta es diferente. Aquí la prueba puede no rechazar H0 que "la India no no Granger-EASTEU causa", pero todavía rechaza que "no se EASTEU Granger las causas de la India". Por lo tanto, los datos gaussianizados respaldan la hipótesis de que los mercados europeos impulsan los mercados en India al día siguiente.

mod.vars.gauss <- vars::VAR(ret.gauss[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars.gauss, "INDIA")$Granger

## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars.gauss
## F-Test = 0.8, df1 = 5, df2 = 3000, p-value = 0.5

causality(mod.vars.gauss, "EASTEU")$Granger

## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars.gauss
## F-Test = 2, df1 = 5, df2 = 3000, p-value = 0.06

VAR(5)

Georg M. Goerg
fuente
1

Lo que se necesita es un modelo de distribución de probabilidad que se ajuste mejor a los datos. A veces, no hay momentos definidos. Una de esas distribuciones es la distribución de Cauchy. Aunque la distribución de Cauchy tiene una mediana como valor esperado, no hay un valor medio estable ni momentos superiores estables. Lo que esto significa es que cuando uno recopila datos, surgen mediciones reales que parecen valores atípicos, pero son mediciones reales. Por ejemplo, si uno tiene dos distribuciones normales F y G, con media cero, y uno divide F / G, el resultado no tendrá primer momento y es una distribución de Cauchy. Por lo tanto, recopilamos datos con gusto, y se ve bien como 5,3,9,6,2,4 y calculamos una media que se ve estable, luego, de repente, obtenemos un valor de -32739876 y nuestro valor medio deja de tener sentido, pero tenga en cuenta que la mediana es 4, estable. Tal es con distribuciones de cola larga.

Editar: puede probar la distribución t de Student con 2 grados de libertad. Esa distribución tiene colas más largas que la distribución normal, la asimetría y la curtosis son inestables ( Sic , no existen), pero la media y la varianza están definidas, es decir, son estables.

Próxima edición: una posibilidad podría ser utilizar la regresión de Theil. De todos modos, es un pensamiento, porque Theil funcionará bien sin importar cómo se vean las colas. Theil se puede hacer MLR (regresión lineal múltiple usando pendientes medias). Nunca he hecho Theil para el ajuste de datos de histograma. Pero, he hecho Theil con una variante de navaja para establecer intervalos de confianza. La ventaja de hacerlo es que a Theil no le importa cuáles son las formas de distribución y, en general, las respuestas están menos sesgadas que con OLS porque normalmente se utiliza OLS cuando hay una varianza de eje independiente problemática. No es que Theil esté totalmente desequilibrado, es una pendiente media. Las respuestas también tienen un significado diferente, encuentra un mejor acuerdo entre las variables dependientes e independientes donde OLS encuentra el menor predictor de error de la variable dependiente,

Carl
fuente
2
Buena información, gracias. ¿Conoces algunos recursos (bastante compactos) para leer más? Tengo un problema completamente diferente con la cola larga, pero creo que mis datos son solo una distribución mixta de diferentes escenarios.
flaschenpost
Uso Mathematica, y ajustar distribuciones así como definir distribuciones por partes no es difícil en ese idioma. Por ejemplo, mira esto . En general, las variables aleatorias se suman por convolución, pero en la práctica la convolución de las funciones de densidad es un desafío. Algunas personas solo definen las funciones de densidad para variables mezcladas, por ejemplo, agregando una cola exponencial ligera a una distribución gamma más pesada censurada después de un valor máximo para modelar la frecuencia de terremotos. @flaschenpost
Carl