¿La correlación supone la estacionariedad de los datos?

27

El análisis entre mercados es un método para modelar el comportamiento del mercado mediante la búsqueda de relaciones entre diferentes mercados. Muchas veces, se calcula una correlación entre dos mercados, por ejemplo, S&P 500 y los bonos del Tesoro estadounidense a 30 años. La mayoría de las veces, estos cálculos se basan en datos de precios, lo cual es obvio para todos que no se ajusta a la definición de series temporales estacionarias.

Dejando a un lado las posibles soluciones (utilizando en su lugar los retornos), ¿el cálculo de la correlación cuyos datos no son estacionarios es incluso un cálculo estadístico válido?

¿Diría que tal cálculo de correlación es poco confiable o simplemente una tontería?

Comerciante de leche
fuente
1
¿Qué quiere decir con "cálculo estadístico válido"? Debería decir cálculo estadístico válido (estimación) de algo. Aquí el algo es muy importante. La correlación es un cálculo válido de la relación lineal entre dos conjuntos de datos. No veo por qué necesitas estacionariedad, ¿querías decir autocorrelación?
robin girard
2
Hay un nuevo sitio que podría ser más adecuado para su pregunta: quant.stackexchange.com . Ahora está claramente confundiendo cálculo con interpretación.
mpiktas
@mpiktas, la comunidad cuantitativa está decidida a utilizar los rendimientos frente a los precios debido a la estacionariedad de los retornos y la no estacionariedad de los precios. Estoy pidiendo aquí algo más que una explicación intuitiva de por qué esto debería ser así.
Milktrader
@robin, hay varias cosas que pueden hacer que cuestiones un análisis estadístico. Me viene a la mente el tamaño de la muestra, al igual que cosas más obvias, como los datos manipulados. ¿La no estacionariedad de los datos pone en duda un cálculo de correlación?
Milktrader
no el cálculo, tal vez la interpretación si la correlación no es alta. Si es alta significa alta correlación (es decir, alta relación lineal), dos series de tiempo no estacionarias dicen e pueden estar potencialmente altamente correlacionadas (por ejemplo, cuando .(Xt)(Yt)Xt=Yt
robin girard

Respuestas:

37

La correlación mide la relación lineal. En el contexto informal, la relación significa algo estable. Cuando calculamos la correlación de muestra para variables estacionarias y aumentamos el número de puntos de datos disponibles, esta correlación de muestra tiende a una correlación verdadera.

Se puede demostrar que para los precios, que generalmente son caminatas aleatorias, la correlación muestral tiende a una variable aleatoria. Esto significa que no importa cuántos datos tengamos, el resultado siempre será diferente.

Tenga en cuenta que intenté expresar la intuición matemática sin las matemáticas. Desde el punto de vista matemático, la explicación es muy clara: los momentos de muestra de procesos estacionarios convergen en probabilidad a constantes. Los momentos de muestra de caminatas aleatorias convergen en integrales de movimiento browniano que son variables aleatorias. Dado que la relación generalmente se expresa como un número y no como una variable aleatoria, la razón para no calcular la correlación para las variables no estacionarias se hace evidente.

Actualización Dado que estamos interesados ​​en la correlación entre dos variables, supongamos primero que provienen del proceso estacionario . La estacionariedad implica que y no dependen de . Entonces correlaciónE Z t c o v ( Z t , Z t - h ) tZt=(Xt,Yt)EZtcov(Zt,Zth)t

corr(Xt,Yt)=cov(Xt,Yt)DXtDYt

tampoco depende de , ya que todas las cantidades en la fórmula provienen de la matriz , que no depende de . Entonces el cálculo de la correlación muestralc o v ( Z t ) ttcov(Zt)t

ρ=corr(Xt,Yt)ρρT

ρ^=1Tt=1T(Xt-X¯)(Yt-Y¯)1T2t=1T(Xt-X¯)2t=1T(Yt-Y¯)2
tiene sentido, ya que podemos tener una esperanza razonable de que la correlación de la muestra estimará . Resulta que esta esperanza no es infundada, ya que para procesos estacionarios que satisfacen ciertas condiciones tenemos que , como en probabilidad. Además, en distribución, por lo que podemos probar las hipótesis sobre .ρ=doorr(Xt,Yt)ρ^ρTρT(ρ^-ρ)norte(0 0,σρ2)ρ

Ahora suponga que no es estacionario. Entonces puede depender de . Entonces, cuando observamos una muestra de tamaño , potencialmente necesitamos estimar diferentes correlaciones . Por supuesto, esto no es factible, por lo que, en el mejor de los casos, solo podemos estimar algunas funciones de como la media o la varianza. Pero el resultado puede no tener una interpretación sensata. c o r r ( X t , Y t ) t T T ρ t ρ tZtdoorr(Xt,Yt)tTTρtρt

Ahora examinemos qué sucede con la correlación de la caminata aleatoria del proceso no estacionario probablemente más estudiada. Llamamos al proceso una caminata aleatoria si , donde es un proceso estacionario. Por simplicidad, suponga que . LuegoZ t = Zt=(Xt,Yt)Ct=(Ut,Vt)ECt=0Zt=s=1t(Ut,Vt)dot=(Ut,Vt)midot=0 0

doorr(XtYt)=miXtYtreXtreYt=mis=1tUts=1tVtres=1tUtres=1tVt

Para simplificar aún más las cosas, suponga que es un ruido blanco. Esto significa que todas las correlaciones son cero para . Tenga en cuenta que esto no restringe a cero.E ( C t C t + h ) h > 0 c o r r ( U t , V t )dot=(Ut,Vt)mi(dotdot+h)h>0 0corr(Ut,Vt)

Entonces

corr(Xt,Yt)=tEUtVtt2DUtDVt=corr(U0,V0).

Hasta ahora todo bien, aunque el proceso no es estacionario, la correlación tiene sentido, aunque tuvimos que hacer los mismos supuestos restrictivos.

Ahora, para ver qué sucede con la correlación de muestra, necesitaremos usar el siguiente hecho sobre caminatas aleatorias, llamado teorema del límite central funcional:

s[0,1]

1TZ[Ts]=1Tt=1[Ts]Ct(cov(C0))1/2Ws,
en distribución, donde y es bivariante Movimiento browniano (proceso de Wiener bidimensional). Por conveniencia, introduzca la definición .s[0 0,1]M s = ( M 1 s , M 2 s ) = (Ws=(W1s,W2s)METROs=(METRO1s,METRO2s)=(doov(do0 0))-1/ /2Ws

Nuevamente, por simplicidad, definamos la correlación de muestra como

ρ^=1Tt=1TXtYt1Tt=1TXt21Tt=1TYt2

Comencemos con las variaciones. Tenemos

mi1Tt=1TXt2=1Tmit=1T(s=1tUt)2=1Tt=1TtσU2=σUT+12.

Esto va al infinito a medida que aumenta, por lo que llegamos al primer problema, la varianza de la muestra no converge. Por otro lado, el teorema de mapeo continuo junto con el teorema funcional del límite central nos daT

T

1T2t=1TXt2=t=1T1T(1Ts=1tUt)20 01METRO1s2res
donde la convergencia es convergencia en la distribución, como .T

Del mismo modo obtenemos

1

1T2t=1TYt20 01METRO2s2res
y
1T2t=1TXtYt0 01METRO1sMETRO2sres

Finalmente, para la correlación muestral de nuestra caminata aleatoria, obtenemos

T

ρ^0 01METRO1sMETRO2sres0 01METRO1s2res0 01METRO2s2res
en distribución como . T

Entonces, aunque la correlación está bien definida, la correlación de la muestra no converge hacia ella, como en el caso del proceso estacionario. En cambio, converge a una determinada variable aleatoria.

mpiktas
fuente
1
La explicación del punto de vista matemático es lo que estaba buscando. Me da algo para contemplar y explorar más. Gracias.
Milktrader
1
Esta respuesta parece eludir la pregunta original: ¿No estás diciendo que sí, calcular la correlación tiene sentido para los procesos estacionarios?
whuber
1
@whuber, estaba respondiendo la pregunta teniendo en cuenta el comentario, pero volví a leer la pregunta y, por lo que entiendo, el OP pregunta sobre el cálculo de la correlación para datos no estacionarios. El cálculo de la correlación para procesos estacionarios tiene sentido, todo el análisis macroeconométrico (VAR, VECM) se basa en eso.
mpiktas
Trataré de aclarar mi pregunta con una respuesta.
whuber
3
@whuber mi conclusión de la respuesta es que una correlación basada en datos no estacionarios produce una variable aleatoria, que puede ser útil o no. La correlación basada en datos estacionarios converge a una constante. Esto puede explicar por qué los comerciantes se sienten atraídos por la "correlación del día x" porque el comportamiento correlacionado es fugaz y falso. Si la "correlación de balanceo del día x" es válida o útil es para otra pregunta.
Milktrader
13

... es el cálculo de la correlación cuyos datos no son estacionarios, incluso un cálculo estadístico válido?

Deje ser una caminata aleatoria discreta. Elige un número positivo . Defina los procesos y por , si , y de lo contrario ; y . En otras palabras, comienza idéntico a pero cada vez que eleva por encima de , cambia de signo (de lo contrario, emula a en todos los aspectos).WhPAGSVPAGS(0 0)=1PAGS(t+1)=-PAGS(t)V(t)>hPAGS(t+1)=PAGS(t)V(t)=PAGS(t)W(t)VWVhW

ingrese la descripción de la imagen aquí

(En esta figura (para ) es azul y es rojo. Hay cuatro interruptores en el signo).h=5 5WV

En efecto, durante períodos cortos de tiempo, tiende a estar perfectamente correlacionado con o perfectamente anticorrelacionado con él; sin embargo, usar una función de correlación para describir la relación entre y no sería útil (una palabra que quizás capta el problema más acertadamente que "no confiable" o "sin sentido").VWVW

Código de Mathematica para producir la figura:

With[{h=5},
pv[{p_, v_}, w_] := With[{q=If[v > h, -p, p]}, {q, q w}];
w = Accumulate[RandomInteger[{-1,1}, 25 h^2]];
{p,v} = FoldList[pv, {1,0}, w] // Transpose;
ListPlot[{w,v}, Joined->True]]
whuber
fuente
es bueno que su respuesta lo señale, pero no diría que el proceso está correlacionado, diría que son dependientes. Este es el punto. El cálculo de la correlación es válido y aquí dirá "sin correlación" y todos sabemos que esto no significa "sin dependencia".
robin girard
1
@robin Ese es un buen punto, pero construí este ejemplo específicamente para que durante períodos de tiempo potencialmente largos estos dos procesos estén perfectamente correlacionados. El problema no es de dependencia versus correlación, sino que está inherentemente relacionado con un fenómeno más sutil: que la relación entre los procesos cambia en períodos aleatorios. En pocas palabras, eso es exactamente lo que puede suceder en los mercados reales (¡o al menos deberíamos preocuparnos de que pueda suceder!).
whuber
@whubert sí, y este es un muy buen ejemplo que muestra que hay procesos que tienen una correlación muy alta durante períodos de tiempo potencialmente largos y que aún no están correlacionados (pero son altamente dependientes) cuando se trata de la escala temporal más grande.
robin girard
2
@robin girard, creo que la clave aquí es que para los procesos no estacionarios la correlación teórica varía con el tiempo, cuando para los procesos estacionarios la correlación teórica permanece igual. Entonces, con una correlación de muestra que básicamente es un número, es imposible capturar la variación de las correlaciones verdaderas en el caso de procesos no estacionarios.
mpiktas