¿Cómo probar la autocorrelación de los residuos?

23

Tengo una matriz con dos columnas que tienen muchos precios (750). En la imagen a continuación tracé los residuos de la siguiente regresión lineal:

lm(prices[,1] ~ prices[,2])

Mirando la imagen, parece ser una autocorrelación muy fuerte de los residuos.

Sin embargo, ¿cómo puedo probar si la autocorrelación de esos residuos es fuerte? ¿Qué método debo usar?

Residuos de la regresión lineal.

¡Gracias!

Dail
fuente
8
No necesita hacer una prueba de autocorrelación. Está ahí. La trama muestra eso. Puede observar la función de autocorrelación de estos residuos (función acf()), pero esto simplemente confirmará lo que puede verse a simple vista: las correlaciones entre los residuos rezagados son muy altas.
Wolfgang
@Wolfgang, sí, correcto, pero tengo que verificarlo mediante programación. Echaré un vistazo a la función acf. ¡Gracias!
Dail
@Wolfgang, estoy viendo acf () pero no veo una especie de valor p para entender si existe una fuerte correlación o no. ¿Cómo interpretar su resultado? Gracias
Dail
Con H0: correlación (r) = 0, entonces r sigue una normal / t dist con media 0 y varianza de sqrt (número de observaciones). Para que pueda obtener el intervalo de confianza del 95% usando +/-qt(0.75, numberofobs)/sqrt(numberofobs)
Jim
@ Jim La variación de la correlación no es . La desviación estándar tampoco es . Pero sí tiene una . n nnn
Glen_b: reinstala a Monica el

Respuestas:

17

Probablemente hay muchas maneras de hacer esto, pero la primera que viene a la mente se basa en la regresión lineal. Puede retroceder los residuos consecutivos uno contra el otro y probar una pendiente significativa. Si hay autocorrelación, entonces debería haber una relación lineal entre los residuos consecutivos. Para finalizar el código que ha escrito, puede hacer lo siguiente:

mod = lm(prices[,1] ~ prices[,2])
res = mod$res 
n = length(res) 
mod2 = lm(res[-n] ~ res[-1]) 
summary(mod2)

mod2 es una regresión lineal del error de tiempo , ε t , contra el error de tiempo t - 1 , ε t - 1 . si el coeficiente para res [-1] es significativo, tiene evidencia de autocorrelación en los residuos.tεtt1εt1

Nota: Esto supone implícitamente que los residuos son autorregresivos en el sentido de que solo es importante al predecir ε t . En realidad, podría haber dependencias de mayor alcance. En ese caso, este método que he descrito debe interpretarse como la aproximación autorregresiva de un retraso a la verdadera estructura de autocorrelación en ε .εt1εtε

Macro
fuente
muchas gracias por el ejemplo Solo una duda: ¿Cómo puedo probar si res [-1] es significativo?
Dail
que había prueba de la misma manera que lo haría con cualquier otro coeficiente de regresión - vistazo a la -estadística y p -valortp
Macro
haciendo una prueba rápida con: lm (rnorm (1000) ~ jitter (1: 1000)) Obtengo: Error estándar residual: 1.006 en 997 grados de libertad Múltiple R cuadrado: 0.0003463, R cuadrado ajustado: -0.0006564 Estadística F : 0.3454 en 1 y 997 DF, valor p: 0.5569 el valor p no puede rechazar la hipótesis nula
Dail
Macro, he probado los residuos de la tabla que he trazado anteriormente, y el resultado es: Error estándar residual: 0.04514 en 747 grados de libertad Múltiple R cuadrado: 0.9241, R cuadrado ajustado: 0.924 F-estadística: 9093 en 1 y 747 DF, valor p: <2.2e-16, no parece muy bueno, es muy extraño porque hay una autocorrelación fuerte, ¿qué podría hacer?
Dail
3
Esto se llama prueba de Breusch-Godfrey para autocorrelación.
Charlie
16

Utilice la prueba Durbin-Watson , implementada en el paquete lmtest .

dwtest(prices[,1] ~ prices[,2])
Rob Hyndman
fuente
muy extraño me sale: valor p <2.2e-16, ¿Cómo es posible? ¡los datos parecen estar muy correlacionados!
Dail
44
El valor p es probablemente el de obtener tanta correlación como la observada si no hay una correlación real. Entonces, si la p es muy pequeña, como lo es, eso sugiere que hay mucha correlación presente en la muestra.
Rob Hyndman
¿Quiere decir que un valor p como este indica que los residuos están muy autocorrelacionados?
Dail
hmm extraño, eche un vistazo a: imageshack.us/f/59/17671620.png ¿cómo es posible que la imagen correcta no esté autocorrelacionada?
Dail
: dail Parece que la imagen de la izquierda tiene un cambio estructural en la variación (ver el artículo de Ruey Tsay "Outliers, Level Shifts, and Variance Changes in Time Series", Journal of Forecasting, VOl 7, 1-20 (1988) para más detalles) que en este caso no "confunde" el DW, quizás debido al hecho de que toda la distribución sigue siendo normal, mientras que la imagen correcta tiene algunas anomalías (Pulsos) visualmente obvias (e identificables empíricamente) que crean una wikopedia no normal (leptokurtotic: ver una distribución con exceso positivo de curtosis se llama distribución leptokurtic) que causa estragos con el DW
IrishStat
11

La prueba DW o la prueba de regresión lineal no son robustas a las anomalías en los datos. Si tiene pulsos, pulsos estacionales, cambios de nivel o tendencias de tiempo local, estas pruebas son inútiles ya que estos componentes no tratados inflan la varianza de los errores y, por lo tanto, sesgan hacia abajo las pruebas que lo hacen (como descubrió) aceptar incorrectamente la hipótesis nula de no correlación automática Antes de que se puedan usar estas dos pruebas o cualquier otra prueba paramétrica que conozco, uno tiene que "probar" que la media de los residuos no es estadísticamente significativamente diferente de 0.0 EN TODAS PARTES, de lo contrario, los supuestos subyacentes no son válidos. Es bien sabido que una de las limitaciones de la prueba DW es suponer que los errores de regresión se distribuyen normalmente. Tenga en cuenta los medios normalmente distribuidos, entre otras cosas: sin anomalías (verhttp://homepage.newschool.edu/~canjels/permdw12.pdf ). Además, la prueba DW solo prueba la autocorrelación del retraso 1. Sus datos podrían tener un efecto semanal / estacional y esto no se diagnosticaría y, además, sin tratamiento, sesgaría hacia abajo la prueba DW.

IrishStat
fuente
¿Cuáles son las pruebas para comprobar que los residuos son significativamente diferentes de cero? Si la regresión incluye intercepción, entonces la media residual es algebraicamente cero, así que tengo curiosidad por saber cómo es posible sortear este problema.
mpiktas
: mpkitas Como dijiste cuando incluiste una constante, la media de los errores está garantizada en 0.0, pero eso no garantiza que la media de los errores sea cero en todas partes. Por ejemplo, si una serie tiene un cambio en la media, la media general será una constante pero generará dos "grupos" de residuos, cada uno con una media diferente. Puede seguir el artículo de Ruey Tsay "Valores atípicos, cambios de nivel y cambios de varianza en series de tiempo", Journal of Forecasting, VOl 7, 1-20 (1988) para más detalles. O faculty.chicagobooth.edu/ruey.tsay/teaching/uts/lec10-08.pdf O Google "detección de intervención automática"
IrishStat
1
Esta es solo la suposición estándar de "variables no omitidas" que está implícita en todos los análisis de regresión.
Charlie