¿Por qué las caminatas aleatorias están intercorrelacionadas?

27

He observado que, en promedio, el valor absoluto del coeficiente de correlación de Pearson es una constante cercana a cualquier par de caminatas aleatorias independientes, independientemente de la longitud de la caminata.0.560.42

¿Alguien puede explicar este fenómeno?

Esperaba que las correlaciones se redujeran a medida que aumenta la longitud de la caminata, como con cualquier secuencia aleatoria.

Para mis experimentos utilicé caminatas gaussianas aleatorias con una media de pasos 0 y una desviación estándar de pasos 1.

ACTUALIZAR:

Olvidé centrar los datos, por eso fue en 0.56lugar de 0.42.

Aquí está el script de Python para calcular las correlaciones:

import numpy as np
from itertools import combinations, accumulate
import random

def compute(length, count, seed, center=True):
    random.seed(seed)
    basis = []
    for _i in range(count):
        walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
        if center:
            walk -= np.mean(walk)
        basis.append(walk / np.sqrt(np.dot(walk, walk)))
    return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])

print(compute(10000, 1000, 123))
Adán
fuente
Mi primer pensamiento es que a medida que la caminata se alarga, es posible obtener valores con una magnitud mayor, y la correlación se está acelerando.
John Paul
Pero esto funcionaría con cualquier secuencia aleatoria, si te entiendo bien, sin embargo, solo las caminatas aleatorias tienen esa correlación constante.
Adam
44
Esta no es una "secuencia aleatoria": las correlaciones son extremadamente altas, porque cada término está a un paso del anterior. Tenga en cuenta también que el coeficiente de correlación que está calculando no es el de las variables aleatorias involucradas: es un coeficiente de correlación para las secuencias (considerado simplemente como datos emparejados), lo que equivale a una gran fórmula que involucra varios cuadrados y diferencias de todos los términos en la secuencia.
whuber
10
¿Estás hablando de correlaciones entre caminatas aleatorias (en series que no están dentro de una serie)? Si es así, es porque sus caminatas aleatorias independientes están integradas pero no integradas, que es una situación bien conocida donde aparecerán correlaciones espurias.
Chris Haug
8
Si toma una primera diferencia, no encontrará correlación. La falta de estacionariedad es la clave aquí.
Paul

Respuestas:

24

¡Sus procesos independientes no están correlacionados! Si e son caminatas aleatorias independientes:XtYt

  • No existe un coeficiente de correlación incondicional en el tiempo. (No hable de .Corr(X,Y)
  • Para cualquier momento , es de hecho 0.tCorr(Xt,Yt)
  • ¡Pero las estadísticas de muestra basadas en promedios de series temporales no convergerán en nada! El coeficiente de correlación de la muestra que calculó en base al promedio de múltiples observaciones en el tiempo no tiene sentido.

Intuitivamente, puede adivinar (incorrectamente) que:

  1. La independencia entre dos procesos y implica que tienen correlación cero. (Para dos caminatas aleatorias, no existe).{Xt}{Yt}Corr(X,Y)
  2. La serie de tiempo, correlación de muestra (es decir, el coeficiente de correlación calculado usando series de tiempo, estadísticas de muestra como ) convergerá en el coeficiente de correlación de la población como .ρ^XYμX^=1Tτ=1TXτρXYT

¡El problema es que ninguna de estas afirmaciones es cierta para caminatas aleatorias! (Son ciertos para procesos que se comportan mejor).

Para procesos no estacionarios:

  • Puede hablar sobre la correlación entre los procesos y en dos puntos de tiempo particulares (por ejemplo, es una declaración perfectamente sensata).{Xt}{Yt}Corr(X2,Y3)
  • ¡Pero no tiene sentido hablar sobre la correlación entre las dos series incondicionalmente a tiempo! no tiene un significado bien definido.Corr(X,Y)

¿Los problemas en el caso de una caminata aleatoria?

  1. Para una caminata aleatoria, los momentos de población incondicionales (es decir, que no dependen del tiempo ), como , no existen. (En cierto sentido, son infinitos). Del mismo modo, el coeficiente de correlación incondicional entre dos caminatas aleatorias independientes no es cero; de hecho no existe!tE[X]ρXY
  2. Los supuestos de los teoremas ergódicos no se aplican y varios promedios de series de tiempo (por ejemplo, ) no convergen hacia nada como . 1TτXτT
    • Para una secuencia estacionaria, el promedio de la serie temporal eventualmente convergerá en la media que es incondicional en el tiempo. Pero para una secuencia no estacionaria, ¡no hay forma de que sea incondicional a tiempo!

Si tiene varias observaciones de dos caminatas aleatorias independientes a lo largo del tiempo (por ejemplo , , , etc ... e , , ....) y calcula el coeficiente de correlación de la muestra, obtendrá un número entre y . Pero no será una aproximación del coeficiente de correlación de la población (que no existe).X1X2Y1Y211

En cambio, (calculado usando promedios de series de tiempo de a ) básicamente será una variable aleatoria (tomando valores en ) que refleja los dos caminos particulares que tomaron las caminatas aleatorias por casualidad (es decir, los caminos definidos por el sorteo extraído del espacio muestral ). Hablando de manera extremadamente laxa (e imprecisa):ρ^XY(T)t=1t=T[1,1]ωΩ

  • Si tanto y pasaron a vagar en la misma dirección, se le detecta una relación positiva falsa.XtYt
  • Si e se en diferentes direcciones, detectará una relación negativa espuria.XtYt
  • Si e cruzan lo suficiente, detectarás una relación cercana a cero.XtYt

Puedes buscar más sobre esto en Google con los términos spurious regression random walk.

Un paseo aleatorio no es estacionaria y tomando las medias con el tiempo no se reunirán en lo que se obtendría mediante la adopción de IID dibuja a partir de espacio de muestra . Como se mencionó en los comentarios anteriores, puede tomar las primeras diferencias y para una caminata aleatoria, ese proceso es estacionario.tωΩΔxt=xtxt1{Δxt}

Idea de imagen grande:

¡Múltiples observaciones a lo largo del tiempo NO ES lo mismo que múltiples sorteos de un espacio muestral!

Recuerde que un proceso estocástico de tiempo discreto es una función tanto del tiempo ( ) como de un espacio de muestra .{Xt}tNΩ

Para que los promedios en el tiempo converjan hacia las expectativas sobre un espacio muestral , necesita estacionariedad y ergodicidad . Este es un tema central en muchos análisis de series de tiempo. Y una caminata aleatoria no es un proceso estacionario.tΩ

Conexión a la respuesta de WHuber:

Si puede tomar promedios en múltiples simulaciones (es decir, tomar múltiples sorteos de ) en lugar de verse obligado a tomar promedios a lo largo del tiempo , varios de sus problemas desaparecerán.Ωt

Por supuesto, puede definir como el coeficiente de correlación de muestra calculado en e y esto también será un proceso estocástico.ρ^XY(t)X1XtY1Yt

Puede definir alguna variable aleatoria como:Zt

Zt=|ρ^XY(t)|

Para dos caminatas aleatorias que comienzan en con incrementos , es fácil encontrar por simulación (es decir, tomar múltiples sorteos de ).0N(0,1)E[Z10000]Ω

A continuación, ejecuté una simulación de 10,000 cálculos de un coeficiente de correlación de Pearson de muestra. Cada vez que yo:

  • Simuló dos caminatas aleatorias de 10.000 longitudes (con incrementos normalmente distribuidos extraídos de ).N(0,1)
  • Calcula el coeficiente de correlación muestral entre ellos.

A continuación se muestra un histograma que muestra la distribución empírica sobre los 10000 coeficientes de correlación calculados.

ingrese la descripción de la imagen aquí

Puede observar claramente que la variable aleatoria puede estar en todas partes en el intervalo . Para dos rutas fijas de e , el coeficiente de correlación de la muestra no converge a nada a medida que aumenta la longitud de la serie temporal.ρ^XY(10000)[1,1]XY

Por otro lado, durante un tiempo particular (p. Ej. ), el coeficiente de correlación de la muestra es una variable aleatoria con una media finita, etc. Si tomo el valor absoluto y calculo la media de todas las simulaciones, calculo aproximadamente .42. No estoy seguro de por qué quieres hacer esto o por qué esto es significativo, pero por supuesto que puedes.t=10,000

Código:

for i=1:10000 
  X = randn(10000,2); 
  Y = cumsum(X); 
  z(i) = corr(Y(:,1), Y(:,2));
end;
histogram(z,20);
mean(abs(z))
Matthew Gunn
fuente
Dado que el tamaño de la muestra obviamente no es finito, sus afirmaciones sobre varias cantidades que no existen son desconcertantes. Es difícil ver cómo se aplican sus símbolos a la situación descrita por el OP.
whuber
¡El tamaño de su muestra NUNCA va al infinito! No mientras esté sacando muestras con una computadora, ( solo en matemática pura puede hacer tales suposiciones ). ¿Y qué significa eso: debido a que tiene infinitos puntos, no converge? ¿Dónde leíste eso?
Mayou36
@whuber Esperemos que esta versión sea un poco más clara. Supongo que el OP pregunta por qué el coeficiente de correlación de la muestra (basado en promedios de series de tiempo) entre dos segmentos finitos de caminatas aleatorias no es cero, incluso para series de tiempo de longitud inmensa. Un problema fundamental es que para una caminata aleatoria, no existen varios momentos de población y los promedios de series de tiempo no convergen en nada.
Matthew Gunn el
Sin embargo, para fijo todo es finito. Por otra parte, la expectativa del coeficiente de correlación de la muestra absoluta hace converger a medida que aumenta! Tenga en cuenta también que la pregunta se refiere al valor absoluto de ese coeficiente. Su expectativa (obviamente) es cero. nn
whuber
1
@whuber ¿Quiere decir que para la serie temporal de longitud fija , todo es finito? (sí, estoy de acuerdo con eso). La expectativa de la correlación de la muestra es cero (sí, estoy de acuerdo con eso). Sin embargo, a medida que aumenta , la correlación muestral no converge en un solo punto. Para dos segmentos de caminata aleatorios de longitud arbitraria, el coeficiente de correlación de la muestra no está tan lejos de un sorteo aleatorio de la distribución uniforme en [0, 1] (ver histograma). tt
Matthew Gunn el
15

La matemática necesaria para obtener un resultado exacto es desordenada, pero podemos derivar un valor exacto para el coeficiente de correlación al cuadrado esperado de manera relativamente sencilla. Ayuda a explicar por qué sigue apareciendo un valor cercano a y por qué aumentar la longitud de la caminata aleatoria no cambiará las cosas.1/2n

Existe la posibilidad de confusión sobre los términos estándar. La correlación absoluta a la que se hace referencia en la pregunta, junto con las estadísticas que la componen (varianzas y covarianzas) son fórmulas que se pueden aplicar a cualquier par de realizaciones de caminatas aleatorias. La pregunta se refiere a lo que sucede cuando miramos muchas realizaciones independientes. Para eso, debemos tener expectativas sobre el proceso de caminata aleatoria.


(Editar)

Antes de continuar, quiero compartir algunas ideas gráficas con usted. Un par de caminatas aleatorias independientes es una caminata aleatoria en dos dimensiones. Podemos trazar la ruta que va de cada uno a . Si esta ruta tiende hacia abajo (de izquierda a derecha, trazada en los ejes XY habituales), para estudiar el valor absoluto de la correlación , neguemos todos los valores deTrace los recorridos en ejes dimensionados para dar a los valores e mismas desviaciones estándar y superponer el ajuste de mínimos cuadrados de a(X,Y)(Xt,Yt)Xt+1,Yt+1YXYYX. Las pendientes de estas líneas serán los valores absolutos de los coeficientes de correlación, siempre entre y .01

Esta figura muestra tales caminatas, cada una de de longitud (con diferencias normales estándar). Pequeños círculos abiertos marcan sus puntos de partida. Las ojeras marcan sus ubicaciones finales.15960

Figura

Estas pendientes tienden a ser bastante grandes. Los diagramas de dispersión perfectamente aleatorios de tantos puntos siempre tendrían pendientes muy cercanas a cero. Si tuviéramos que describir los patrones que están surgiendo aquí, podríamos decir que la mayoría de las caminatas aleatorias en 2D migran gradualmente de un lugar a otro. (¡Sin embargo, estas no son necesariamente sus ubicaciones iniciales y finales!) Entonces, aproximadamente la mitad del tiempo, esa migración ocurre en una dirección diagonal, y la pendiente es, por consiguiente, alta.

El resto de esta publicación esboza un análisis de esta situación.


Una caminata aleatoria es una secuencia de sumas parciales de donde son independientes de media cero distribuidas idénticamente. Que su varianza común sea .(Xi)(W1,W2,,Wn)Wiσ2

En una realización de dicha caminata, la "varianza" se calcularía como si fuera un conjunto de datos:x=(x1,,xn)

V(x)=1n(xix¯)2.

Una buena manera de calcular este valor es tomar la mitad del promedio de todas las diferencias al cuadrado:

V(x)=1n(n1)j>i(xjxi)2.

Cuando se ve como el resultado de una caminata aleatoria de pasos, la expectativa de esto esxXn

E(V(X))=1n(n1)j>iE(XjXi)2.

Las diferencias son sumas de variables iid,

XjXi=Wi+1+Wi+2++Wj.

Expande la plaza y toma expectativas. Debido a que son independientes y tienen cero medios, las expectativas de todos los términos cruzados son cero. Eso deja solo términos como , cuya expectativa es . AsíWkWkσ2

E((Wi+1+Wi+2++Wj2))=(ji)σ2.

Se sigue fácilmente que

E(V(X))=1n(n1)j>i(ji)σ2=n+16σ2.

La covarianza entre dos realizaciones independientes e en el sentido de conjuntos de datos, no de variables aleatorias, se puede calcular con la misma técnica (pero requiere más trabajo algebraico; se trata de una suma cuádruple). El resultado es que el cuadrado esperado de la covarianza esxy

E(C(X,Y)2)=3n62n53n2+2n480n2(n1)2σ4.

En consecuencia, la expectativa del coeficiente de correlación al cuadrado entre e , tomado en pasos, esXYn

ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n32n2+3n2n3n.

Aunque esto no es constante, rápidamente se acerca a un valor límite de . Su raíz cuadrada, aproximadamente , por lo tanto, se aproxima al valor absoluto esperado de (y lo subestima).9/400.47ρ(n)


Estoy seguro de que he cometido errores de cálculo, pero las simulaciones confirman la precisión asintótica. En los siguientes resultados que muestran los histogramas de para simulaciones cada uno, las líneas rojas verticales muestran las medias mientras que las líneas azules discontinuas muestran el valor de la fórmula. Claramente es incorrecto, pero asintóticamente es correcto. Evidentemente, toda la distribución de se acerca a un límite a medida que aumenta. Del mismo modo, la distribución de(que es la cantidad de interés) se acercará a un límite.ρ2(n)1000ρ2(n)n|ρ(n)|

Figura

Este es el Rcódigo para producir la figura.

f <- function(n){
  m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40 
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
  u <- matrix(rnorm(n*n.sim), nrow=n)
  v <- matrix(rnorm(n*n.sim), nrow=n)
  x <- apply(u, 2, cumsum)
  y <- apply(v, 2, cumsum)
  sim <- rep(NA_real_, n.sim)
  for (i in 1:n.sim)
    sim[i] <- cor(x[,i], y[,i])^2
  z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
  hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
  abline(v=mean(sim), lwd=2, col="Red")
  abline(v=f(n), col="Blue", lwd=2, lty=3)
}
whuber
fuente
Mi estimación basada en la simulación Monte-Carlo de para es de aproximadamente .24 (que parece estar de acuerdo con sus resultados). Estoy de acuerdo con tu análisis aquí. Es posible que esté entendiendo cómo el OP llega a su número (aunque calculo alrededor de .42, no .56). E[ρ2]T=100
Matthew Gunn el
Si puede tomar sorteos repetidos de , no hay nada particularmente especial en el análisis de series de tiempo. Los problemas (p. Ej., Ergodicidad, estacionariedad, etc.) se desarrollan cuando solo se pueden observar nuevos valores de avanzando el tiempo que supuse que era a lo que el OP intentaba llegar ... (pero tal vez no). ΩXt
Matthew Gunn el
1
+1, pero ¿cuál es la intuición acerca de por qué existe este valor asintótico positivo , mientras que ingenuamente uno esperaría que si realiza dos caminatas aleatorias muy largas debería tener una correlación cercana a cero, es decir, ingenuamente uno esperaría la distribución de correlaciones reducir a cero a medida que crece? 9/40n
ameba dice Reinstate Monica
@amoeba Primero, no creo completamente el valor de , pero sé que está cerca de corregir. Para la intuición, considere que dos caminatas independientes e son una caminata aleatoria en dos dimensiones. Tome cualquier diagrama de dispersión aleatorio en 2D y mida su excentricidad de alguna manera. Será raro que sea perfectamente circular. Por lo tanto, esperamos que la excentricidad media sea positiva. El hecho de que haya una distribución limitante para caminatas aleatorias simplemente refleja la naturaleza "fractal" auto-similar de esta caminata 2D. X t Y t ( X t , Y t )9/40XtYt(Xt,Yt)
whuber
2
Un análisis asintótico de los temas discutidos aquí se puede encontrar en Phillips (1986), Teorema 1e .
Christoph Hanck