Regresión habitual versus regresión cuando las variables se diferencian

13

Solo estoy tratando de entender cuál es la relación entre una regresión múltiple / simple normal versus una regresión simple / múltiple cuando las variables se diferencian.

Por ejemplo, estoy analizando la relación entre el saldo de depósitos ( ) y las tasas de mercado ( R T ) Si ejecuto una regresión lineal simple, la correlación es negativa y bastante significativa (alrededor de -.74) Sin embargo, si tomo el log y diferencia de la variable dependiente y la diferencia de la variable independiente, entonces mi ecuación ahora es dYTRT se regresa con dreEn(YT) , mis correlaciones y R ^ 2 no son significativas en absoluto ( R 2 = .004 ).reR(T)R2=.004

Me preguntaba si este bajo significa algo. ¿Significa que mi modelo no se ajusta bien o ignoro el R 2 cuando estoy viendo datos diferenciados? Sé por los datos que hay una correlación significativa entre las dos variables originales, pero para mi modelo necesito mirar las variables diferenciadas, así que me pregunto cómo hacer esto.R2R2

alex
fuente

Respuestas:

16

La versión simple es que cualquiera de las dos variables que tienden a cambiar en una dirección con el tiempo parecerá estar correlacionada, ya sea que haya alguna conexión entre ellas o no. Considere las siguientes variables:

set.seed(1)
time = seq(from=1, to=100, by=1)
x  = .5 + .3*time +        rnorm(100)
y1 =  3 + .3*time +        rnorm(100)
y2 =  7 + .1*time + .8*x + rnorm(100)

es solo una función del tiempo, como lo es y 1 . y 2 es una función tanto del tiempo como de x . El punto es reconocer del código que realmente existe una relación entre x e y 2 , y que no existe una relación entre x e y 1 . Ahora mira la siguiente figura, las tres líneas se ven terriblemente similares, ¿no?Xy1y2XXy2Xy1

ingrese la descripción de la imagen aquí

R2Xy1R2Xy2Xy1Xy2Entonces, ¿cómo diferenciamos lo real de la mera apariencia? Ahí es donde entra la diferencia. Para cualquiera de las dos variables, dado que ambas tienden a aumentar con el tiempo, eso no es muy informativo, pero dado que una aumenta en una cantidad específica, ¿eso nos dice cuánto aumenta la otra? La diferencia nos permite responder esa pregunta. Tenga en cuenta las siguientes dos figuras, diagramas de dispersión que hice después de diferenciar las tres variables.

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Xy2R2=.43Xy1R2=.07R2

Algunos otros puntos: en las figuras, señalo que estos son cambios simultáneos. No hay nada de malo en eso, y se deduce de la forma en que configuré el problema, pero generalmente la gente está interesada en los efectos en algún retraso. (Es decir, el cambio en una cosa en un momento dado conduce a un cambio en otra cosa más adelante). En segundo lugar, menciona tomar el registro de una de sus series. Tomar el registro simplemente cambia sus datos de niveles a tasas. Y, por lo tanto, cuando diferencia, está observando cambios en las tasas en lugar de cambios en los niveles. Eso es muy común, pero no incluí ese elemento en mi demostración; es ortogonal a los problemas que discutí. Por último, quiero reconocer que los datos de series temporales a menudo son más complicados de lo que permite mi demostración.

gung - Restablece a Monica
fuente
10

@gung ofrece una buena respuesta, pero quiero ofrecer algunas advertencias a lo que estás sugiriendo.

La diferenciación se usa principalmente para combatir el problema de las raíces unitarias, por ejemplo, cuando el proceso es AR (1) con un coeficiente de correlación de 1. La diferenciación se puede usar efectivamente para eliminar una tendencia de tiempo lineal cuando el término de error es ruido blanco (en en particular, no exhibe correlación serial), como muestra @gung arriba. Pero, si el término de error tiene correlación serial con un coeficiente de correlación menor que 1 en valor absoluto, el uso de la diferenciación para eliminar una tendencia de tiempo lineal produce errores con una estructura muy complicada. Es difícil obtener errores estándar precisos y hacer inferencias válidas en este caso.

Como resultado, lo mejor es probar primero una raíz unitaria y, si se detecta una, corregirla mediante la diferenciación. A continuación, verifique una tendencia de tiempo lineal. Solucione este problema eliminando la tendencia. Sin hacer esto último, está abierto al problema del tipo de variables omitido que @gung ilustra muy bien.

Charlie
fuente
1
+1 Este es un buen complemento para mi respuesta. Traté de mantener mi respuesta simple e intuitiva. Sin embargo, es cierto que hay más complejidades de las que discutí y que pueden ser muy importantes. Debería haberlo reconocido en mi último párrafo. Gracias por ser honesto conmigo.
gung - Restablece a Monica
1

Cuando el objetivo es formar / identificar la relación entre dos o más series, uno podría necesitar filtrar la variable X estacionaria para transformarla en ruido. Este es un proceso de dos pasos, la diferencia requerida y la estructura ARMA. Para retener la objetividad y evitar el sesgo de especificación del modelo, no se debe asumir el filtro, sino construirlo utilizando la naturaleza autocorrelativa de la serie X estacionaria. Luego se toma la serie Y y se aplican los operadores de diferenciación necesarios para hacerla estacionaria y luego se aplica el filtro desarrollado previamente a la Y estacionaria. Este procedimiento tiene un solo objetivo y es identificar la relación entre Y y X. Uno nunca debe sacar conclusiones precipitadas sobre los operadores de diferenciación requeridos, el filtro ARMA y la relación entre las variables, a menos que uno sea un econométrico que conozca el modelo antes de observar los datos o si le habla directamente al Todopoderoso. Es necesario un análisis cuidadoso con respecto a la normalidad del requisito de errores para creer cualquier prueba estadística que pueda calcularse. El cálculo de las pruebas F / T es necesario pero no suficiente. En resumen, sugiero que siga el tema de "Cómo identificar un modelo de función de transferencia". Otros y yo hemos abordado este tema varias veces. Si lo desea, puede leer detenidamente algunas de las respuestas a las preguntas que tienen la etiqueta "series temporales". Como Yogi dijo "Puedes observar mucho simplemente leyendo / mirando". A veces, las respuestas agradables y simples pueden llevarlo por mal camino y las respuestas potencialmente complicadas / conservadoras como la mía pueden requerir que desarrolle una mejor comprensión de la modelación de datos de series temporales. Como se dijo una vez: "¡Toto, ya no estamos en Kansas (es decir, datos transversales)!"

IrishStat
fuente