Tengo antecedentes moderados en el pronóstico de series de tiempo. He mirado varios libros de pronósticos y no veo las siguientes preguntas abordadas en ninguno de ellos.
Tengo dos preguntas:
¿Cómo determinaría objetivamente (mediante una prueba estadística) si una serie de tiempo dada tiene:
- Estacionalidad estocástica o estacionalidad determinista
- Tendencia estocástica o una tendencia determinista
¿Qué pasaría si modelo mi serie temporal como una tendencia / estacionalidad determinista cuando la serie tiene un componente claramente estocástico?
Cualquier ayuda para abordar estas preguntas sería muy apreciada.
Datos de ejemplo para tendencia:
7,657
5,451
10,883
9,554
9,519
10,047
10,663
10,864
11,447
12,710
15,169
16,205
14,507
15,400
16,800
19,000
20,198
18,573
19,375
21,032
23,250
25,219
28,549
29,759
28,262
28,506
33,885
34,776
35,347
34,628
33,043
30,214
31,013
31,496
34,115
33,433
34,198
35,863
37,789
34,561
36,434
34,371
33,307
33,295
36,514
36,593
38,311
42,773
45,000
46,000
42,000
47,000
47,500
48,000
48,500
47,000
48,900
time-series
forecasting
arima
stochastic-processes
pronosticador
fuente
fuente
Respuestas:
1) Con respecto a su primera pregunta, algunas estadísticas de pruebas se han desarrollado y discutido en la literatura para probar el nulo de estacionariedad y el nulo de una raíz unitaria. Algunos de los muchos documentos que se escribieron sobre este tema son los siguientes:
Relacionado con la tendencia:
Relacionado con el componente estacional:
El libro de texto Banerjee, A., Dolado, J., Galbraith, J. y Hendry, D. (1993), Cointegración, Corrección de errores y el análisis econométrico de datos no estacionarios, Textos avanzados en econometría. Oxford University Press también es una buena referencia.
2) Su segunda preocupación está justificada por la literatura. Si hay una prueba de raíz unitaria, la estadística t tradicional que aplicaría en una tendencia lineal no sigue la distribución estándar. Véase, por ejemplo, Phillips, P. (1987), Regresión de series de tiempo con raíz unitaria, Econometrica 55 (2), 277-301.
Si existe una raíz unitaria y se ignora, entonces la probabilidad de rechazar el valor nulo de que el coeficiente de una tendencia lineal es cero se reduce. Es decir, terminaríamos modelando una tendencia lineal determinista con demasiada frecuencia para un nivel de significación dado. En presencia de una raíz unitaria, debemos transformar los datos tomando diferencias regulares a los datos.
3) Por ejemplo, si usa R puede hacer el siguiente análisis con sus datos.
Primero, puede aplicar la prueba Dickey-Fuller para el nulo de una raíz unitaria:
y la prueba KPSS para la hipótesis nula inversa, estacionariedad frente a la alternativa de estacionariedad en torno a una tendencia lineal:
Resultados: prueba ADF, al nivel de significancia del 5% no se rechaza una raíz unitaria; Prueba KPSS, el nulo de estacionariedad se rechaza a favor de un modelo con una tendencia lineal.
Nota aparte: el uso
lshort=FALSE
de la prueba nula KPSS no se rechaza al nivel del 5%, sin embargo, selecciona 5 rezagos; una inspección adicional que no se muestra aquí sugiere que elegir 1-3 rezagos es apropiado para los datos y lleva a rechazar la hipótesis nula.En principio, deberíamos guiarnos por la prueba para la cual pudimos rechazar la hipótesis nula (en lugar de por la prueba para la cual no rechazamos (aceptamos) la nula). Sin embargo, una regresión de la serie original en una tendencia lineal resulta no ser confiable. Por un lado, el cuadrado R es alto (más del 90%), lo que se señala en la literatura como un indicador de regresión espuria.
Por otro lado, los residuos están autocorrelacionados:
Además, el nulo de una raíz unitaria en los residuos no puede ser rechazado.
En este punto, puede elegir un modelo que se utilizará para obtener pronósticos. Por ejemplo, los pronósticos basados en un modelo de serie temporal estructural y en un modelo ARIMA se pueden obtener de la siguiente manera.
Una trama de los pronósticos:
Las previsiones son similares en ambos casos y parecen razonables. Observe que los pronósticos siguen un patrón relativamente determinista similar a una tendencia lineal, pero no modelamos explícitamente una tendencia lineal. La razón es la siguiente: i) en el modelo de tendencia local, la varianza del componente de la pendiente se estima como cero. Esto convierte el componente de tendencia en una deriva que tiene el efecto de una tendencia lineal. ii) ARIMA (0,1,1), un modelo con una deriva se selecciona en un modelo para la serie diferenciada. El efecto del término constante en una serie diferenciada es una tendencia lineal. Esto se discute en esta publicación .
Puede verificar que si se elige un modelo local o un ARIMA (0,1,0) sin deriva, los pronósticos son una línea horizontal recta y, por lo tanto, no tendrían semejanza con la dinámica observada de los datos. Bueno, esto es parte del rompecabezas de las pruebas de raíz unitaria y los componentes deterministas.
Edición 1 (inspección de residuos): la autocorrelación y el ACF parcial no sugieren una estructura en los residuos.
Como IrishStat sugirió, también es aconsejable verificar la presencia de valores atípicos. Se detectan dos valores atípicos aditivos utilizando el paquete
tsoutliers
.Mirando el ACF, podemos decir que, al nivel de significancia del 5%, los residuos también son aleatorios en este modelo.
En este caso, la presencia de posibles valores atípicos no parece distorsionar el rendimiento de los modelos. Esto está respaldado por la prueba de Jarque-Bera para la normalidad; el nulo de normalidad en los residuos de los modelos iniciales (
fit1
,fit2
) no se rechaza al nivel de significancia del 5%.Edición 2 (gráfico de residuos y sus valores) Así es como se ven los residuos:
Y estos son sus valores en formato csv:
fuente
Con respecto a sus datos no estacionales ... Las tendencias pueden ser de dos formas y (t) = y (t − 1) + θ0 (A) Tendencia estocástica o Y (t) = a + bx1 + cx2 (B) Determinista Tendencia, etc., donde x1 = 1,2,3,4 .... tyx2 = 0,0,0,0,0,1,2,3,4 por lo tanto, una tendencia se aplica a las observaciones 1 −t y una segunda tendencia se aplica a las observaciones 6 a t.
Su serie no estacional contenía 29 valores. Usé AUTOBOX, una pieza de software que había ayudado a desarrollar de forma totalmente automática. AUTOBOX es un procedimiento transparente, ya que detalla cada paso en el proceso de modelado. Aquí se presenta un gráfico de la serie / valores ajustados / pronósticos . El uso de AUTOBOX para formar un modelo de tipo A condujo a lo siguiente . La ecuación se presenta nuevamente aquí . Las estadísticas del modelo son . Una gráfica de los residuales está aquí mientras que la tabla de valores pronosticados está aquí . La restricción de AUTOBOX a un modelo de tipo B llevó a AUTOBOX a detectar una tendencia creciente en el período 14 :. !
En términos de comparación de modelos: dado que el número de observaciones ajustadas difiere (26 y 29 respectivamente) no es posible utilizar métricas estándar (es decir, r-cuadrado, error estándar dev, AIC, etc.) para determinar la dominancia, aunque en este caso el guiño sería vaya a A. Los residuos de A son mejores debido a la estructura AR (2). Los pronósticos de B son un poco agresivos, mientras que el patrón de los pronósticos de A es más intuitivo. Uno podría retener 4 observaciones y evaluar la precisión del pronóstico para un pronóstico de 1 período de 4 orígenes distintos (25, 26, 27 y 28).
fuente