Predicción de series de tiempo no estacionarias

8

Me gustaría pronosticar las series de tiempo no estacionarias, que involucran varios supuestos cruciales a priori que se derivan del estudio de instancias de tales series.

  1. He construido una función de distribución de probabilidad de un punto promediada en el tiempo aproximada por la distribución normal. Desde este punto de vista, quiero que el pronóstico no exceda esto cuando . En otras palabras, la varianza de debe estar limitada.

    p^(x)=12πσ2exp(x22σ2)
    zt(l)lzt(l)
  2. La función de distribución de probabilidad promedio de dos puntos también se ha construido, lo que condujo a la identificación de la función de autocorrelación. proporcionó .p^(xi,i;xj,j)ρ(j)Ajα0<α<0.5

Al principio, el proceso de identificación de Box-Jenkins me llevó al , sin embargoARIMA(0,1,3)

  1. No puedo tener una varianza acotada hasta (que se deduce de las ecuaciones para pesos BJ ). Al mismo tiempo, no puedo usar ya que la autocorrelación inicial disminuye lentamente (lo que probablemente sea evidencia de no estacionariedad según BJ). Este es el principal obstáculo para mí.d0ψjd=0

  2. Visualmente, la simulación de no coincide con el comportamiento de mis muestras. Y las correlaciones de la primera diferencia de la serie están en mal acuerdo con las correlaciones que se siguen del modelo.ARIMA(0,1,3)

  3. El análisis de los residuos muestra correlaciones significativas a partir del retraso 3. Es por eso que mi afirmación inicial sobre es incorrecta.ARIMA(0,1,3)

Intentando ajustar diferentes modelos , veo que hay correlaciones residuales significativas cercanas al retraso para cada . Puede suponer que necesito el (como opción limitante), por ejemplo, ARIMA fraccional.ARIMA(p,0,0)ppARIMA(,0,q)

De [1] aprendí acerca de los modelos fraccionales que están vigentes en .ARIMA(p,d,q)ARIMA(,0,q)

  1. No he encontrado ningún paquete GNU R con soporte de valores faltantes para esto. Los valores perdidos parecen ser una especie de desafío.

  2. Las publicaciones sobre ARIMA fraccional son bastante raras. ¿Se utilizan realmente tales modelos fraccionarios? ¿Quizás haya un buen reemplazo de los modelos ARIMA para mis necesidades? El pronóstico no es mi mayor, solo tengo un interés pragmático.

  3. De diferentes publicaciones (por ejemplo [2]), aprendí que es prácticamente imposible decidir entre ARIMA fraccional y modelos con "cambio de nivel". Sin embargo, no he encontrado el paquete para GNU R que se ajuste a los modelos de 'cambio de nivel'.

[1]: Granger, Joyeux .: J. de series temporales anal. vol. 1 no. 1 1980, p.15

[2]: Grassi, de Magistris .: "Cuando la memoria se encuentra con el filtro de Kalman: un estudio comparativo", Estadísticas computacionales y análisis de datos, 2012, en prensa.

Actualización: para representar mi propio progreso y responder a @IrishStat

Mi afirmación sobre la distribución de probabilidad de dos puntos es incorrecta en general. Construido de esta manera, la función dependerá de la longitud total de la serie. Entonces, hay un poco que extraer de esto. Al menos, el parámetro llamado dependerá de la longitud total de la serie.α

Las listas 2 y 3 también se han actualizado.

Mis datos están disponibles como archivo dat aquí .

En este momento, dudo entre FARIMA y los cambios de nivel, y todavía no puedo encontrar el software adecuado para verificar estas opciones. Esta es también mi primera experiencia con la identificación del modelo, por lo que cualquier ayuda será apreciada.

0x2207
fuente
Estoy un poco confundido por sus datos. Por ejemplo, cuál es el significado de 6325.76 ... y -.247831. ¿Qué se está observando? ¿Los datos son cronológicos e igualmente espaciados en el tiempo? 6,325.76666666667 -0,247831949032426 "770" 6,326.78333333333 ,0282060159445925 "771" 6,327.78333333333 ,162348034962085 "772" 6,328.78333333333 -0,206057978534193 "773" 6,329.78333333333 -0,427928912063427 "774" 6,330.78333333333 NA "775" 6,331.78333333333 NA "776" 6,332.78333333333 NA "777" 6,333.78333333333 NA "778" 6,334.78333333333 NA
IrishStat
Este es el resultado write.table (). La primera columna es "nombre de fila" (sin sentido), la segunda es el momento de tiempo, el tercer valor. Son observaciones casi equidistantes, se pierden muchos datos.
0x2207
Los enfoques de dominio de tiempo requieren datos igualmente espaciados SIN valores faltantes. Para fines pedagógicos, tomaré un subconjunto de los datos Y supondré que están igualmente espaciados e intentaré caracterizarlos.
IrishStat

Respuestas:

5

Nunca he visto un modelo como el proceso de identificación de Box-Jenkins me llevó al modelo ARIMA (0,1,3) PERO nunca había visto un cisne negro hasta que fui a Australia. Publique sus datos, ya que pueden sugerir la necesidad de

  1. Detección de intervención que lleva a incluir cambios de nivel, tendencias de hora local, etc.
  2. Parámetros variables en el tiempo
  3. Variación de error variable en el tiempo

Si sus datos son confidenciales, simplemente escale.

OK después de recibir sus datos (unas 80000 lecturas), seleccioné 805 observaciones a partir del punto 6287 y obtuve.

ingrese la descripción de la imagen aquí. Se detectó un punto de cambio significativo en el período 137 que sugiere parámetros variables en el tiempo. Las 668 observaciones restantes sugieren un modelo pdq ARIMA (3,0,0) con un cambio de nivel. Paso que respalda sus conclusiones preliminares sobre el retraso 3 ingrese la descripción de la imagen aquí.. El gráfico Actual / Ajuste / Pronóstico es ingrese la descripción de la imagen aquíEl Gráfico Residual ingrese la descripción de la imagen aquíy el acf de los residuos es ingrese la descripción de la imagen aquí. Dado que el acf de los residuos muestra una estructura fuerte en los períodos 5 y 10, ingrese la descripción de la imagen aquípuede investigar más la estructura estacional en el retraso 5. Espero que esto ayude.

IrishStat
fuente