He observado que, en promedio, el valor absoluto del coeficiente de correlación de Pearson es una constante cercana a cualquier par de caminatas aleatorias independientes, independientemente de la longitud de la caminata.0.56
0.42
¿Alguien puede explicar este fenómeno?
Esperaba que las correlaciones se redujeran a medida que aumenta la longitud de la caminata, como con cualquier secuencia aleatoria.
Para mis experimentos utilicé caminatas gaussianas aleatorias con una media de pasos 0 y una desviación estándar de pasos 1.
ACTUALIZAR:
Olvidé centrar los datos, por eso fue en 0.56
lugar de 0.42
.
Aquí está el script de Python para calcular las correlaciones:
import numpy as np
from itertools import combinations, accumulate
import random
def compute(length, count, seed, center=True):
random.seed(seed)
basis = []
for _i in range(count):
walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
if center:
walk -= np.mean(walk)
basis.append(walk / np.sqrt(np.dot(walk, walk)))
return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])
print(compute(10000, 1000, 123))
Respuestas:
¡Sus procesos independientes no están correlacionados! Si e son caminatas aleatorias independientes:Xt Yt
Intuitivamente, puede adivinar (incorrectamente) que:
¡El problema es que ninguna de estas afirmaciones es cierta para caminatas aleatorias! (Son ciertos para procesos que se comportan mejor).
Para procesos no estacionarios:
¿Los problemas en el caso de una caminata aleatoria?
Si tiene varias observaciones de dos caminatas aleatorias independientes a lo largo del tiempo (por ejemplo , , , etc ... e , , ....) y calcula el coeficiente de correlación de la muestra, obtendrá un número entre y . Pero no será una aproximación del coeficiente de correlación de la población (que no existe).X1 X2 Y1 Y2 −1 1
En cambio, (calculado usando promedios de series de tiempo de a ) básicamente será una variable aleatoria (tomando valores en ) que refleja los dos caminos particulares que tomaron las caminatas aleatorias por casualidad (es decir, los caminos definidos por el sorteo extraído del espacio muestral ). Hablando de manera extremadamente laxa (e imprecisa):ρ^XY(T) t=1 t=T [−1,1] ω Ω
Puedes buscar más sobre esto en Google con los términos
spurious regression random walk
.Un paseo aleatorio no es estacionaria y tomando las medias con el tiempo no se reunirán en lo que se obtendría mediante la adopción de IID dibuja a partir de espacio de muestra . Como se mencionó en los comentarios anteriores, puede tomar las primeras diferencias y para una caminata aleatoria, ese proceso es estacionario.t ω Ω Δxt=xt−xt−1 {Δxt}
Idea de imagen grande:
¡Múltiples observaciones a lo largo del tiempo NO ES lo mismo que múltiples sorteos de un espacio muestral!
Recuerde que un proceso estocástico de tiempo discreto es una función tanto del tiempo ( ) como de un espacio de muestra .{Xt} t∈N Ω
Para que los promedios en el tiempo converjan hacia las expectativas sobre un espacio muestral , necesita estacionariedad y ergodicidad . Este es un tema central en muchos análisis de series de tiempo. Y una caminata aleatoria no es un proceso estacionario.t Ω
Conexión a la respuesta de WHuber:
Si puede tomar promedios en múltiples simulaciones (es decir, tomar múltiples sorteos de ) en lugar de verse obligado a tomar promedios a lo largo del tiempo , varios de sus problemas desaparecerán.Ω t
Por supuesto, puede definir como el coeficiente de correlación de muestra calculado en e y esto también será un proceso estocástico.ρ^XY(t) X1…Xt Y1…Yt
Puede definir alguna variable aleatoria como:Zt
Para dos caminatas aleatorias que comienzan en con incrementos , es fácil encontrar por simulación (es decir, tomar múltiples sorteos de ).0 N(0,1) E[Z10000] Ω
A continuación, ejecuté una simulación de 10,000 cálculos de un coeficiente de correlación de Pearson de muestra. Cada vez que yo:
A continuación se muestra un histograma que muestra la distribución empírica sobre los 10000 coeficientes de correlación calculados.
Puede observar claramente que la variable aleatoria puede estar en todas partes en el intervalo . Para dos rutas fijas de e , el coeficiente de correlación de la muestra no converge a nada a medida que aumenta la longitud de la serie temporal.ρ^XY(10000) [−1,1] X Y
Por otro lado, durante un tiempo particular (p. Ej. ), el coeficiente de correlación de la muestra es una variable aleatoria con una media finita, etc. Si tomo el valor absoluto y calculo la media de todas las simulaciones, calculo aproximadamente .42. No estoy seguro de por qué quieres hacer esto o por qué esto es significativo, pero por supuesto que puedes.t=10,000
Código:
fuente
La matemática necesaria para obtener un resultado exacto es desordenada, pero podemos derivar un valor exacto para el coeficiente de correlación al cuadrado esperado de manera relativamente sencilla. Ayuda a explicar por qué sigue apareciendo un valor cercano a y por qué aumentar la longitud de la caminata aleatoria no cambiará las cosas.1/2 n
Existe la posibilidad de confusión sobre los términos estándar. La correlación absoluta a la que se hace referencia en la pregunta, junto con las estadísticas que la componen (varianzas y covarianzas) son fórmulas que se pueden aplicar a cualquier par de realizaciones de caminatas aleatorias. La pregunta se refiere a lo que sucede cuando miramos muchas realizaciones independientes. Para eso, debemos tener expectativas sobre el proceso de caminata aleatoria.
(Editar)
Antes de continuar, quiero compartir algunas ideas gráficas con usted. Un par de caminatas aleatorias independientes es una caminata aleatoria en dos dimensiones. Podemos trazar la ruta que va de cada uno a . Si esta ruta tiende hacia abajo (de izquierda a derecha, trazada en los ejes XY habituales), para estudiar el valor absoluto de la correlación , neguemos todos los valores deTrace los recorridos en ejes dimensionados para dar a los valores e mismas desviaciones estándar y superponer el ajuste de mínimos cuadrados de a(X,Y) (Xt,Yt) Xt+1,Yt+1 Y X Y Y X . Las pendientes de estas líneas serán los valores absolutos de los coeficientes de correlación, siempre entre y .0 1
Esta figura muestra tales caminatas, cada una de de longitud (con diferencias normales estándar). Pequeños círculos abiertos marcan sus puntos de partida. Las ojeras marcan sus ubicaciones finales.15 960
Estas pendientes tienden a ser bastante grandes. Los diagramas de dispersión perfectamente aleatorios de tantos puntos siempre tendrían pendientes muy cercanas a cero. Si tuviéramos que describir los patrones que están surgiendo aquí, podríamos decir que la mayoría de las caminatas aleatorias en 2D migran gradualmente de un lugar a otro. (¡Sin embargo, estas no son necesariamente sus ubicaciones iniciales y finales!) Entonces, aproximadamente la mitad del tiempo, esa migración ocurre en una dirección diagonal, y la pendiente es, por consiguiente, alta.
El resto de esta publicación esboza un análisis de esta situación.
Una caminata aleatoria es una secuencia de sumas parciales de donde son independientes de media cero distribuidas idénticamente. Que su varianza común sea .(Xi) (W1,W2,…,Wn) Wi σ2
En una realización de dicha caminata, la "varianza" se calcularía como si fuera un conjunto de datos:x=(x1,…,xn)
Una buena manera de calcular este valor es tomar la mitad del promedio de todas las diferencias al cuadrado:
Cuando se ve como el resultado de una caminata aleatoria de pasos, la expectativa de esto esx X n
Las diferencias son sumas de variables iid,
Expande la plaza y toma expectativas. Debido a que son independientes y tienen cero medios, las expectativas de todos los términos cruzados son cero. Eso deja solo términos como , cuya expectativa es . AsíWk Wk σ2
Se sigue fácilmente que
La covarianza entre dos realizaciones independientes e en el sentido de conjuntos de datos, no de variables aleatorias, se puede calcular con la misma técnica (pero requiere más trabajo algebraico; se trata de una suma cuádruple). El resultado es que el cuadrado esperado de la covarianza esx y
En consecuencia, la expectativa del coeficiente de correlación al cuadrado entre e , tomado en pasos, esX Y n
Aunque esto no es constante, rápidamente se acerca a un valor límite de . Su raíz cuadrada, aproximadamente , por lo tanto, se aproxima al valor absoluto esperado de (y lo subestima).9/40 0.47 ρ(n)
Estoy seguro de que he cometido errores de cálculo, pero las simulaciones confirman la precisión asintótica. En los siguientes resultados que muestran los histogramas de para simulaciones cada uno, las líneas rojas verticales muestran las medias mientras que las líneas azules discontinuas muestran el valor de la fórmula. Claramente es incorrecto, pero asintóticamente es correcto. Evidentemente, toda la distribución de se acerca a un límite a medida que aumenta. Del mismo modo, la distribución de(que es la cantidad de interés) se acercará a un límite.ρ2(n) 1000 ρ2(n) n |ρ(n)|
Este es el
R
código para producir la figura.fuente