¿Cómo incorporo un valor atípico innovador en la observación 48 en mi modelo ARIMA?

10

Estoy trabajando en un conjunto de datos. Después de usar algunas técnicas de identificación de modelos, obtuve un modelo ARIMA (0,2,1).

Utilicé la detectIOfunción en el paquete TSAen R para detectar un valor atípico innovador (IO) en la observación número 48 de mi conjunto de datos original.

¿Cómo incorporo este valor atípico en mi modelo para poder usarlo con fines de pronóstico? No quiero usar el modelo ARIMAX, ya que es posible que no pueda hacer ninguna predicción a partir de eso en R. ¿Hay alguna otra forma de hacerlo?

Aquí están mis valores en orden:

VALUE <- scan()
  4.6  4.5  4.4  4.5  4.4  4.6  4.7  4.6  4.7  4.7  4.7  5.0  5.0  4.9  5.1  5.0  5.4
  5.6  5.8  6.1  6.1  6.5  6.8  7.3  7.8  8.3  8.7  9.0  9.4  9.5  9.5  9.6  9.8 10.0
  9.9  9.9  9.8  9.8  9.9  9.9  9.6  9.4  9.5  9.5  9.5  9.5  9.8  9.3  9.1  9.0  8.9
  9.0  9.0  9.1  9.0  9.0  9.0  8.9  8.6  8.5  8.3  8.3  8.2  8.1  8.2  8.2  8.2  8.1
  7.8  7.9  7.8  7.8

Esa es en realidad mi información. Son tasas de desempleo durante un período de 6 años. Hay 72 observaciones entonces. Cada valor es como máximo un decimal

b2amen
fuente
66
Puede crear un maniquí que sea 1 para y 0 en todos los demás períodos. Luego, vuelva a estimar el modelo. Eso evitará que este valor atípico sesgue el pronóstico. Si eso no es lo que tienes en mente, debes elaborar el segundo párrafo. t=48
Dimitriy V. Masterov
2
@Gen_b Estás en lo correcto, debería molestarte, ya que esto probablemente esté demasiado diferenciado, produciendo un MA de cancelación (1). La identificación errónea resulta del uso de herramientas inapropiadas.
IrishStat
2
En las segundas diferencias, tienes lo que parece un valor atípico, pero aparentemente es causado por un pequeño salto aditivo en la observación 47 de la serie original, que cuando se diferencia dos veces parece un gran valor atípico negativo un período más tarde. Si hace algo simple para eliminar ese pequeño efecto en la observación 47 (casi cualquier cosa sensata), no aparecen valores atípicos en la segunda diferencia. Diría que es mejor verlo como un AO en la escala original.
Glen_b: reinstala a Monica el
2
Están sucediendo muchas cosas en este conjunto de datos, pero el comportamiento temporal local (correlación, estacionalidad, etc.) es lo de menos. Cuando analizas ciegamente datos como este solo como una secuencia de números, corres el riesgo de producir resultados ridículos (o peor). ¿Qué puede decirnos sobre lo que estos datos significan ? ¿Son quizás medidas de algo en una estación de monitoreo? ¿Una serie temporal económica? ¿Una tabla de crecimiento biológico? Por lo general, comprender algo sobre el fenómeno subyacente hará mucho más para ayudar a identificar un modelo que cualquier cantidad de retoques con el software estadístico.
whuber
2
@whuber: ¡son tasas de desempleo durante un período de 6 años!
b2amen

Respuestas:

3

Y(t)=[θ/ /ϕ][UNA(t)+IO(t)]Y* *(t)=[θ/ /ϕ][UNA(t)]+[θ/ /ϕ][IO(t)]

θ=1ϕ=[1-.5si]
Y* *(t)=[1/ /(1-.5si)][UNA(t)]
+IO(t)-.5IO(t-1)+.25IO(t-2)-.125IO(t-3)-....


Y(t)=[1/ /(1-.5si)][UNA(t)] +10IO(t)-5 5IO(t-1)+2.5IO(t-2)-1,25IO(t-3)-....
IO

De esta manera, puede ver que el impacto de la anomalía no solo es instantáneo sino que tiene memoria.

t

[w(si)/ /re(si)][w(si)]

Cada vez que incorporas memoria, ya sea como resultado de un operador de diferenciación o una estructura ARMA, es una admisión tácita de ignorancia debido a la serie causal omitida. Esto también es cierto respecto de la necesidad de incorporar series deterministas de intervención, como pulsos / cambios de nivel, pulsos estacionales o tendencias de tiempo local. Estas variables ficticias son un proxy de neede para las variables causales especificadas por el usuario deterministas omitidas. A menudo, todo lo que tiene es la serie de interés y, dado los calificadores que he explicado, puede pronosticar el futuro basándose en el pasado en total ignorancia de la naturaleza exacta de los datos que se analizan. El único problema es que está utilizando la ventana trasera para predecir el camino por delante ... algo realmente peligroso.

después de que se publicaron los datos ...

Un modelo razonable es un (1,1,0) ingrese la descripción de la imagen aquíy las anomalías AO se identificaron en los períodos 39,41,47,21 y 69 (no en el período 48). Los residuos de este modelo parecen estar libres de estructura evidente. ingrese la descripción de la imagen aquíY ingrese la descripción de la imagen aquíEl precio AO valora una representación óptima de la actividad reflejada por la actividad que no está en la historia de la serie temporal. Creo que el ACF del modelo sobrediferenciado del OP reflejaría la insuficiencia del modelo. Aquí está el modelo. ingrese la descripción de la imagen aquí Una vez más, no se entrega ningún código R ya que el problema u oportunidad se encuentra en el ámbito de la identificación / revisión / validación del modelo. Finalmente, una trama de la serie real / ajustada y pronosticada. [Ingrese la descripción de la imagen aquí] [6]

IrishStat
fuente
1
gracias por su respuesta; pero en realidad quería un R-Code para mi modelo.
b2amen
1
@ b2amen Sí, entiendo PERO Glen_b quería algunas "cosas" y pensé en responderle.
IrishStat
Gracias por la edición ¡Tú y yo seríamos buenos socios!
IrishStat
@ IrishStat: mis datos están incluidos en la pregunta original. Espero que pueda ayudarlo a ayudarme. Gracias de todos modos
b2amen
@IrishStat: Me gusta tu salida. Se ve muy bien para mí. ¿Y qué software usaste? Pero, ¿podría explicar cómo identificó un AR (2,1,0)? Gracias
b2amen