Estoy haciendo algunas estadísticas descriptivas de los rendimientos diarios de los índices bursátiles. Es decir, si y P 2 son los niveles del índice en el día 1 y el día 2, respectivamente, entonces l o g e ( P 2es el retorno que estoy usando (completamente estándar en la literatura).
Entonces la curtosis es enorme en algunos de estos. Estoy viendo alrededor de 15 años de datos diarios (alrededor de observaciones de series de tiempo)
means sds mins maxs skews kurts
ARGENTINA -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532
AUSTRIA 0.00003 0.00640 -0.03845 0.04621 0.19614 2.36104
CZECH.REPUBLIC 0.00008 0.00800 -0.08289 0.05236 -0.16920 5.73205
FINLAND 0.00005 0.00639 -0.03845 0.04622 0.19038 2.37008
HUNGARY -0.00019 0.00880 -0.06301 0.05208 -0.10580 4.20463
IRELAND 0.00003 0.00641 -0.03842 0.04621 0.18937 2.35043
ROMANIA -0.00041 0.00789 -0.14877 0.09353 -1.73314 44.87401
SWEDEN 0.00004 0.00766 -0.03552 0.05537 0.22299 3.52373
UNITED.KINGDOM 0.00001 0.00587 -0.03918 0.04473 -0.03052 4.23236
-0.00007 0.00745 -0.09124 0.06405 -1.82381 63.20596
AUSTRALIA 0.00009 0.00861 -0.08831 0.06702 -0.74937 11.80784
CHINA -0.00002 0.00072 -0.40623 0.02031 6.26896 175.49667
HONG.KONG 0.00000 0.00031 -0.00237 0.00627 2.73415 56.18331
INDIA -0.00011 0.00336 -0.03613 0.03063 -0.22301 10.12893
INDONESIA -0.00031 0.01672 -0.24295 0.19268 -2.09577 54.57710
JAPAN 0.00008 0.00709 -0.03563 0.06591 0.57126 5.16182
MALAYSIA -0.00003 0.00861 -0.35694 0.13379 -16.48773 809.07665
Mi pregunta es: ¿hay algún problema?
Quiero hacer un extenso análisis de series de tiempo sobre estos datos: OLS y análisis de regresión Cuantil, y también Granger Causality.
Tanto mi respuesta (dependiente) como el predictor (regresor) tendrán esta propiedad de curtosis gigantesca. Entonces tendré estos procesos de retorno a ambos lados de la ecuación de regresión. Si la no normalidad se extiende a las perturbaciones, eso solo hará que mis errores estándar tengan una gran varianza, ¿verdad?
(¿Tal vez necesito un sesgo de arranque robusto?)
Respuestas:
Eche un vistazo a las distribuciones Lambert W x F de cola pesada o las distribuciones asimétricas Lambert W x F intente (descargo de responsabilidad: soy el autor). En R se implementan en el paquete LambertW .
Artículos Relacionados:
Aquí hay un ejemplo de las estimaciones Lambert W x Gaussian aplicadas a los rendimientos de los fondos de capital.
Las métricas de resumen de los retornos son similares (no tan extremas) como en la publicación de OP.
La mayoría de las series muestran características claramente no normales (asimetría fuerte y / o curtosis grande). Gaussianicemos cada serie usando una distribución Lambert W x Gaussian de cola pesada (= Tukey's h) usando un estimador de métodos de momentos (
IGMM
).Las gráficas de series de tiempo muestran muchas menos colas y también una variación más estable a lo largo del tiempo (aunque no constante). Calcular nuevamente las métricas en las series de tiempo gaussianizadas produce:
IGMM
Gaussianize()
scale()
Regresión bivariada simple
El diagrama de dispersión de la izquierda de la serie original muestra que los valores atípicos fuertes no ocurrieron en los mismos días, sino en diferentes momentos en India y Europa; aparte de eso, no está claro si la nube de datos en el centro no admite correlación o dependencia negativa / positiva. Dado que los valores atípicos afectan fuertemente las estimaciones de varianza y correlación, vale la pena observar la dependencia con colas pesadas eliminadas (diagrama de dispersión derecho). Aquí los patrones son mucho más claros y la relación positiva entre India y el mercado de Europa del Este se hace evidente.
Causalidad de Granger
Sin embargo, para los datos gaussianizados la respuesta es diferente. Aquí la prueba puede no rechazar H0 que "la India no no Granger-EASTEU causa", pero todavía rechaza que "no se EASTEU Granger las causas de la India". Por lo tanto, los datos gaussianizados respaldan la hipótesis de que los mercados europeos impulsan los mercados en India al día siguiente.
fuente
Lo que se necesita es un modelo de distribución de probabilidad que se ajuste mejor a los datos. A veces, no hay momentos definidos. Una de esas distribuciones es la distribución de Cauchy. Aunque la distribución de Cauchy tiene una mediana como valor esperado, no hay un valor medio estable ni momentos superiores estables. Lo que esto significa es que cuando uno recopila datos, surgen mediciones reales que parecen valores atípicos, pero son mediciones reales. Por ejemplo, si uno tiene dos distribuciones normales F y G, con media cero, y uno divide F / G, el resultado no tendrá primer momento y es una distribución de Cauchy. Por lo tanto, recopilamos datos con gusto, y se ve bien como 5,3,9,6,2,4 y calculamos una media que se ve estable, luego, de repente, obtenemos un valor de -32739876 y nuestro valor medio deja de tener sentido, pero tenga en cuenta que la mediana es 4, estable. Tal es con distribuciones de cola larga.
Editar: puede probar la distribución t de Student con 2 grados de libertad. Esa distribución tiene colas más largas que la distribución normal, la asimetría y la curtosis son inestables ( Sic , no existen), pero la media y la varianza están definidas, es decir, son estables.
Próxima edición: una posibilidad podría ser utilizar la regresión de Theil. De todos modos, es un pensamiento, porque Theil funcionará bien sin importar cómo se vean las colas. Theil se puede hacer MLR (regresión lineal múltiple usando pendientes medias). Nunca he hecho Theil para el ajuste de datos de histograma. Pero, he hecho Theil con una variante de navaja para establecer intervalos de confianza. La ventaja de hacerlo es que a Theil no le importa cuáles son las formas de distribución y, en general, las respuestas están menos sesgadas que con OLS porque normalmente se utiliza OLS cuando hay una varianza de eje independiente problemática. No es que Theil esté totalmente desequilibrado, es una pendiente media. Las respuestas también tienen un significado diferente, encuentra un mejor acuerdo entre las variables dependientes e independientes donde OLS encuentra el menor predictor de error de la variable dependiente,
fuente