Correlación entre dos series de tiempo

24

¿Cuál es la forma / método más fácil para calcular la correlación entre dos series de tiempo que son exactamente del mismo tamaño? Pensé en multiplicar y , y sumar la multiplicación. Entonces, si este número único fue positivo, ¿podemos decir que estas dos series están correlacionadas? Sin embargo, puedo pensar en algunos ejemplos en los que una serie temporal de crecimiento exponencial lineal no tendría relación entre sí, pero el cálculo anterior informaría que estaban correlacionados.(x[t]μx)(y[t]μy)

¿Alguna idea?

BBDynSys
fuente
3
¿Alguna vez has oído hablar de la función de correlación cruzada - en.wikipedia.org/wiki/Cross-correlation#Time_series_analysis ?
Macro
Sus dos series temporales son exactamente del mismo tamaño. Vea stats.stackexchange.com/questions/3463/… como similar, no del todo idéntico a su pregunta, con dos series del mismo tamaño y frecuencia, aunque no son estacionarias.
Ellie Kesselman

Respuestas:

11

El punto de macro es correcto, la forma correcta de comparar las relaciones entre series de tiempo es mediante la función de correlación cruzada (suponiendo estacionariedad). Tener la misma longitud no es esencial. La correlación cruzada en el retraso 0 simplemente calcula una correlación como hacer la estimación de correlación de Pearson emparejando los datos en los puntos de tiempo idénticos. Si tienen la misma longitud que está suponiendo, tendrá pares T exactos donde T es el número de puntos de tiempo para cada serie. La correlación cruzada de retraso 1 coincide con el tiempo t de la serie 1 con el tiempo t + 1 de la serie 2. Tenga en cuenta que aquí, aunque las series tienen la misma longitud, solo tiene un par T-2, ya que un punto de la primera serie no tiene coincidencia en la segunda y otro punto en la segunda serie no tendrá una coincidencia con la primera. Dadas estas dos series, puede estimar la correlación cruzada en varios rezagos. Si alguna de las correlaciones cruzadas es estadísticamente significativamente diferente de 0, indicará una correlación entre las dos series.

Michael R. Chernick
fuente
Hola Michael, ¿es posible cuantificar "significativamente diferente"? ¿Puedo usar 1 o 2 desviaciones estándar de cero como significativas?
BBDynSys
@ user423805 Lo he cambiado para que lea estadísticamente significativamente diferente de 0. Formalmente, eso significa que prueba la hipótesis nula de que la correlación es cero frente a la alternativa de que no es 0. Luego calcule el valor p de dos lados para la estadística de prueba . Generalmente significancia estadística valor p medio <= 0.05. Algunas veces se usan otros valores para definir la significación estadística (0.01 por ejemplo). La mayoría de los paquetes de software de series temporales que incluyen series temporales múltiples pueden hacer estas pruebas por usted. Nuestro amigo IrishStat puede hablar sobre esto con respecto a Autobox.
Michael R. Chernick
¿Hay casos en los que la correlación cruzada en el retardo cero y Pearson difieren?
Bakaburg
4

Es posible que desee ver una pregunta similar y mi respuesta Correlacionar series de tiempo de volumen que sugiere que puede calcular correlaciones cruzadas PERO probarlas es un caballo de un color diferente (un equino de un tono diferente) debido a la estructura autorregresiva o determinista dentro de serie.

IrishStat
fuente
si entiendo correctamente, en esa respuesta usted dice que la correlación cruzada entre series de tiempo es inútil.
BBDynSys
user423805 PUEDE ser inútil a menos que los datos se filtren adecuadamente para obtener el IID. Esto habla directamente de las preocupaciones reales del OP sobre conclusiones espurias como "cigüeñas que traen bebés J. Neyman 1938 en.wikipedia.org/wiki/… y amstat.org/about / statisticiansinhistory / ... ", etc. (Sin embargo, puedo pensar en algunos ejemplos en los que una serie de tiempo de crecimiento exponencial lineal no tendría relación entre sí, pero el cálculo anterior informaría que estaban correlacionados.)
IrishStat
Creo que el punto es que la serie debe ser estacionaria para que las correlaciones cruzadas tengan sentido. Si es necesario filtrar, es hacer que la serie permanezca estacionaria (como la diferenciación o la diferenciación estacional). Pero llamarlo inútil está mal.
Michael R. Chernick
@Michael dije que PUEDE ser inútil.
IrishStat
@IrishStat Fue un buen comentario y me llevó de regreso a mi entrenamiento en la década de 1970. En ese momento estaba aprendiendo sobre series de tiempo / métodos de pronóstico para mi trabajo civil en el Ejército de los EE. UU. Estábamos utilizando el suavizado exponencial como una forma de pronosticar en base a datos históricos sobre estimaciones subjetivas que se estaban utilizando en los depósitos de suministros. Alguien me hizo la gran sugerencia de mirar los modelos ARIMA más generales y el texto de 1970 de Box y Jenkins y así comenzó mi interés en series de tiempo que se convirtieron en parte de mi carrera.
Michael R. Chernick
-1

Hay algunas cosas interesantes aquí.

/programming/3949226/calculating-pearson-correlation-and-significance-in-python

Esto era realmente lo que necesitaba. Simple de implementar y explicar.

BBDynSys
fuente
2
-1 De lo que puedo deducir, estas respuestas solo se refieren a la correlación estándar de momento y producto de Pearson. Cuando se aplica a dos series de tiempo, la correlación estándar de Pearson da resultados sin sentido. Si sigue estas sugerencias, todo lo que hace es producir artefactos estadísticos. Ver, por ejemplo, math.mcgill.ca/dstephens/OldCourses/204-2007/Handouts/…
Momo