La versión simple es que cualquiera de las dos variables que tienden a cambiar en una dirección con el tiempo parecerá estar correlacionada, ya sea que haya alguna conexión entre ellas o no. Considere las siguientes variables:
set.seed(1)
time = seq(from=1, to=100, by=1)
x = .5 + .3*time + rnorm(100)
y1 = 3 + .3*time + rnorm(100)
y2 = 7 + .1*time + .8*x + rnorm(100)
es solo una función del tiempo, como lo es y 1 . y 2 es una función tanto del tiempo como de x . El punto es reconocer del código que realmente existe una relación entre x e y 2 , y que no existe una relación entre x e y 1 . Ahora mira la siguiente figura, las tres líneas se ven terriblemente similares, ¿no?Xy1y2XXy2Xy1
R2Xy1R2Xy2Xy1Xy2Entonces, ¿cómo diferenciamos lo real de la mera apariencia? Ahí es donde entra la diferencia. Para cualquiera de las dos variables, dado que ambas tienden a aumentar con el tiempo, eso no es muy informativo, pero dado que una aumenta en una cantidad específica, ¿eso nos dice cuánto aumenta la otra? La diferencia nos permite responder esa pregunta. Tenga en cuenta las siguientes dos figuras, diagramas de dispersión que hice después de diferenciar las tres variables.
Xy2R2= .43Xy1R2= .07R2
Algunos otros puntos: en las figuras, señalo que estos son cambios simultáneos. No hay nada de malo en eso, y se deduce de la forma en que configuré el problema, pero generalmente la gente está interesada en los efectos en algún retraso. (Es decir, el cambio en una cosa en un momento dado conduce a un cambio en otra cosa más adelante). En segundo lugar, menciona tomar el registro de una de sus series. Tomar el registro simplemente cambia sus datos de niveles a tasas. Y, por lo tanto, cuando diferencia, está observando cambios en las tasas en lugar de cambios en los niveles. Eso es muy común, pero no incluí ese elemento en mi demostración; es ortogonal a los problemas que discutí. Por último, quiero reconocer que los datos de series temporales a menudo son más complicados de lo que permite mi demostración.
gung - Restablece a Monica
fuente
Cuando el objetivo es formar / identificar la relación entre dos o más series, uno podría necesitar filtrar la variable X estacionaria para transformarla en ruido. Este es un proceso de dos pasos, la diferencia requerida y la estructura ARMA. Para retener la objetividad y evitar el sesgo de especificación del modelo, no se debe asumir el filtro, sino construirlo utilizando la naturaleza autocorrelativa de la serie X estacionaria. Luego se toma la serie Y y se aplican los operadores de diferenciación necesarios para hacerla estacionaria y luego se aplica el filtro desarrollado previamente a la Y estacionaria. Este procedimiento tiene un solo objetivo y es identificar la relación entre Y y X. Uno nunca debe sacar conclusiones precipitadas sobre los operadores de diferenciación requeridos, el filtro ARMA y la relación entre las variables, a menos que uno sea un econométrico que conozca el modelo antes de observar los datos o si le habla directamente al Todopoderoso. Es necesario un análisis cuidadoso con respecto a la normalidad del requisito de errores para creer cualquier prueba estadística que pueda calcularse. El cálculo de las pruebas F / T es necesario pero no suficiente. En resumen, sugiero que siga el tema de "Cómo identificar un modelo de función de transferencia". Otros y yo hemos abordado este tema varias veces. Si lo desea, puede leer detenidamente algunas de las respuestas a las preguntas que tienen la etiqueta "series temporales". Como Yogi dijo "Puedes observar mucho simplemente leyendo / mirando". A veces, las respuestas agradables y simples pueden llevarlo por mal camino y las respuestas potencialmente complicadas / conservadoras como la mía pueden requerir que desarrolle una mejor comprensión de la modelación de datos de series temporales. Como se dijo una vez: "¡Toto, ya no estamos en Kansas (es decir, datos transversales)!"
fuente