¿Cuál es el trato con la autocorrelación?

Para comenzar, tengo una base matemática bastante profunda, pero nunca me he ocupado realmente de series de tiempo o modelos estadísticos. Así que no tienes que ser muy amable conmigo :)

Estoy leyendo este documento sobre el modelado del uso de energía en edificios comerciales, y el autor hace esta afirmación:

[La presencia de autocorrelación surge] porque el modelo se ha desarrollado a partir de datos de series de tiempo de uso de energía, que es inherentemente autocorrelacionado. Cualquier modelo puramente determinista para datos de series temporales tendrá autocorrelación. Se encuentra que la autocorrelación se reduce si se incluyen [más coeficientes de Fourier] en el modelo. Sin embargo, en la mayoría de los casos, el modelo de Fourier tiene un CV bajo. Por lo tanto, el modelo puede ser aceptable para fines prácticos que (sic) no exijan alta precisión.

0.) ¿Qué significa "cualquier modelo puramente determinista para datos de series temporales tendrá autocorrelación"? Puedo entender vagamente lo que esto significa, por ejemplo, ¿cómo esperaría predecir el siguiente punto en su serie de tiempo si tuviera 0 autocorrelación? Sin duda, este no es un argumento matemático, por eso es 0 :)

1.) Tenía la impresión de que la autocorrelación básicamente mató a su modelo, pero al pensarlo, no puedo entender por qué debería ser así. Entonces, ¿por qué la autocorrelación es algo malo (o bueno)?

2.) La solución que he escuchado para lidiar con la autocorrelación es diferenciar las series de tiempo. Sin tratar de leer la mente del autor, ¿por qué uno no haría una diferencia si existe una autocorrelación no despreciable?

3.) ¿Qué limitaciones colocan las autocorrelaciones no despreciables en un modelo? ¿Es esto una suposición en algún lugar (es decir, residuos distribuidos normalmente cuando se modela con regresión lineal simple)?

De todos modos, lo siento si estas son preguntas básicas, y gracias de antemano por ayudar.

time-series autocorrelation BenDundee
fuente

Respuestas:

Creo que el autor probablemente está hablando de los residuos del modelo. Argumento esto debido a su afirmación sobre agregar más coeficientes de Fourier; si, como creo, está ajustando un modelo de Fourier, entonces agregar más coeficientes reducirá la autocorrelación de los residuos a expensas de un CV más alto.

Si tiene problemas para visualizar esto, piense en el siguiente ejemplo: suponga que tiene el siguiente conjunto de datos de 100 puntos, que proviene de un modelo de Fourier de dos coeficientes con ruido gaussiano blanco agregado:

El siguiente gráfico muestra dos ajustes: uno realizado con 2 coeficientes de Fourier y otro realizado con 200 coeficientes de Fourier:

Como puede ver, los 200 coeficientes de Fourier se ajustan mejor a los DATAPOINTS, mientras que el ajuste de 2 coeficientes (el modelo 'real') se ajusta mejor al MODELO. Esto implica que la autocorrelación de los residuos del modelo con 200 coeficientes seguramente será más cercana a cero en todos los rezagos que los residuos del modelo de 2 coeficientes, porque el modelo con 200 coeficientes se ajusta exactamente a casi todos los puntos de datos (es decir, los residuos estar casi todos ceros). Sin embargo, ¿qué pensaría que sucedería si deja, digamos, 10 puntos de datos fuera de la muestra y se ajusta a los mismos modelos? ¡El modelo de 2 coeficientes predecirá mejor los puntos de datos que dejó de la muestra! Por lo tanto, producirá un error CV menor en comparación con el modelo de coeficiente 200; esto se llama sobreajuste. La razón detrás de esta 'magia' es porque lo que CV realmente intenta medir es el error de predicción , es decir, qué tan bien su modelo predice los puntos de datos que no están en su conjunto de datos.
En este contexto, la autocorrelación en los residuos es 'mala', porque significa que no está modelando la correlación entre puntos de datos lo suficientemente bien. La razón principal por la que las personas no diferencian la serie es porque realmente quieren modelar el proceso subyacente tal como es. Uno diferencia las series de tiempo generalmente para deshacerse de las periodicidades o tendencias, pero si esa periodicidad o tendencia es en realidad lo que está tratando de modelar, entonces diferenciarlas puede parecer una opción de último recurso (o una opción para modelar los residuos con Un proceso estocástico más complejo).
Esto realmente depende del área en la que esté trabajando. También podría ser un problema con el modelo determinista. Sin embargo, dependiendo de la forma de la autocorrelación, se puede ver fácilmente cuando la autocorrelación surge debido, por ejemplo, a un ruido de parpadeo, ruido similar a ARMA o si es una fuente periódica subyacente residual (en cuyo caso tal vez desee aumentar el número de coeficientes de fourier).

Néstor
fuente

Gracias por su respuesta, y si está dispuesto, me gustaría probar y digerirlos uno a la vez. Para 1.), ¿hay una forma intuitiva de entender por qué incluir más coeficientes de Fourier reduce la autocorrelación y aumenta el CV (supongo que este es el CV de los residuos)?

BenDundee

Agregué un ejemplo. Espero eso ayude. Y sí, se está refiriendo al CV de los residuos.

Néstor

Ahh ok, creo que ya veo. Esto se relaciona con lo que iba a preguntar con respecto a 2. ¿Cómo podría uno parchear este modelo (genéricamente) para comprender mejor la correlación? ¿Podría agregar una restricción sobre la matriz de correlación de los coeficientes de Fourier?

BenDundee

Esa es una tarea difícil en la que también estoy. Especialmente con los modelos deterministas periódicos, es muy difícil saber qué tipo de modelo de ruido usar. El gran problema es que no conoce a priori el número de coeficientes del modelo de Fourier, por lo que son variables aleatorias que también debe modelar. En presencia de un bajo número de puntos de datos, definitivamente elegiría un MCMC de salto reversible para modelar esto. Probaría diferentes modelos de ruido y compararía el AIC / BIC entre ellos. Para grandes conjuntos de datos, sin embargo, esto no es factible.

Néstor

Encontré este documento ' Regiones espurias en la econometría ' útil cuando trato de entender por qué es necesario eliminar las tendencias. Esencialmente, si dos variables están en tendencia, entonces variarán, lo que es una receta para los problemas.

conjeturas
fuente