Estoy usando la biblioteca VAR statsmodels de python para modelar datos financieros de series de tiempo y algunos resultados me han desconcertado. Sé que los modelos VAR suponen que los datos de la serie temporal son estacionarios. Inadvertidamente, ajusté una serie no estacionaria de precios de registro para dos valores diferentes y, sorprendentemente, los valores ajustados y los pronósticos en la muestra fueron muy precisos con residuos estacionarios relativamente insignificantes. El en el pronóstico dentro de la muestra fue de 99% y la desviación estándar de la serie de residuales de predicción fue de aproximadamente 10% de los valores de pronóstico.
Sin embargo, cuando diferencio los precios de registro y ajusto esa serie temporal al modelo VAR, los valores ajustados y pronosticados están muy lejos de la marca, rebotando en un rango estrecho alrededor de la media. Como resultado, los residuos hacen un mejor trabajo pronosticando los retornos del registro que los valores ajustados, con la desviación estándar de los residuos pronosticados 15X mayor que la serie de datos ajustados un valor de .007 para la serie pronosticada.
¿Estoy malinterpretando los residuos ajustados o residuales en el modelo VAR o estoy cometiendo algún otro error? ¿Por qué una serie de tiempo no estacionaria daría lugar a predicciones más precisas que una estacionaria basada en los mismos datos subyacentes? He trabajado bastante con los modelos ARMA de la misma biblioteca de Python y no vi nada como este modelado de datos de series únicas.
fuente
Respuestas:
Dos hechos:
Cuando retrocede una caminata aleatoria en otra caminata aleatoria y asume incorrectamente la estacionariedad, su software generalmente arrojará resultados estadísticamente significativos, ¡ incluso si son procesos independientes! Por ejemplo, vea estas notas de clase. (Google para una caminata aleatoria espuria y numerosos enlaces aparecerán). ¿Qué está mal? La estimación habitual de OLS y los errores estándar se basan en suposiciones que no son ciertas en el caso de caminatas aleatorias.
Fingir que se aplican los supuestos OLS habituales y hacer retroceder dos caminatas aleatorias independientes entre sí generalmente conducirá a regresiones con enormes , coeficientes altamente significativos, ¡y todo es completamente falso! Cuando hay una caminata aleatoria y ejecuta una regresión en niveles, se violan los supuestos habituales para OLS, su estimación no converge como , el teorema del límite central habitual no se aplica, y las estadísticas t y los valores p su regresión escupe está todo mal .R2 t → ∞
Si se cointegran dos variables , puede retroceder una sobre la otra y su estimador convergerá más rápido de lo normal, un resultado conocido como superconsistencia. P.ej. revise el libro de la serie temporal de John Cochrane en línea y busque "superconsistente".
fuente