He ajustado el modelo ARIMA (5,1,2) usando la auto.arima()
función en R y al mirar en orden podemos decir que este no es el mejor modelo para pronosticar. Si existen valores atípicos en la serie de datos, ¿cuál es el método para ajustar un modelo a dichos datos?
r
time-series
forecasting
outliers
arima
Antonio
fuente
fuente
Respuestas:
Michael Chernick te señala en la dirección correcta. También miraría el trabajo de Ruey Tsay, ya que se agrega a este conjunto de conocimientos. Ver más aquí .
No puede competir contra los algoritmos informáticos automatizados de hoy. Analizan muchas formas de abordar las series de tiempo que no ha considerado y que a menudo no está documentado en ningún documento o libro. Cuando uno pregunta cómo hacer un ANOVA, se puede esperar una respuesta precisa cuando se compara con diferentes algoritmos. Cuando uno hace la pregunta de cómo hago el reconocimiento de patrones, muchas respuestas son posibles ya que están involucradas las heurísticas. Su pregunta implica el uso de heurística.
La mejor manera de ajustar un modelo ARIMA, si existen valores atípicos en los datos, es evaluar los posibles estados de la naturaleza y seleccionar el enfoque que se considera óptimo para un conjunto de datos en particular. Un posible estado de la naturaleza es que el proceso ARIMA es la fuente principal de variación explicada. En este caso, uno "identificaría tentativamente" el proceso ARIMA a través de la función acf / pacf y luego examinaría los residuos para detectar posibles valores atípicos. Los valores atípicos pueden ser Pulsos, es decir, eventos únicos O pulsos estacionales que se evidencian por valores atípicos sistemáticos a alguna frecuencia (digamos, 12 para datos mensuales). Un tercer tipo de valores atípicos es donde uno tiene un conjunto contiguo de pulsos, cada uno con el mismo signo y magnitud, esto se llama un cambio de paso o nivel. Después de examinar los residuos del proceso ARIMA tentativo, se puede agregar tentativamente la estructura determinista identificada empíricamente para crear un modelo combinado tentativo. Tampoco si la fuente principal de variación es uno de los 4 tipos o "valores atípicos", entonces sería mejor identificarlos ab initio (primero) y luego usar los residuos de este "modelo de regresión" para identificar la estructura estocástica (ARIMA) . Ahora, estas dos estrategias alternativas se vuelven un poco más complicadas cuando uno tiene un "problema" en el que los parámetros ARIMA cambian con el tiempo o la varianza del error cambia con el tiempo debido a una serie de posibles causas, posiblemente la necesidad de mínimos cuadrados ponderados o una transformación de potencia como registros / recíprocos, etc. Otra complicación / oportunidad es cómo y cuándo formar la contribución de las series de predictores sugeridas por el usuario para formar un modelo perfectamente integrado que incorpore memoria, causales y series ficticias identificadas empíricamente. Este problema se agrava aún más cuando uno tiene series de tendencias mejor modeladas con series de indicadores de la forma0,0,0,0,1,2,3,4,... , o combinaciones de series de cambio de nivel como . Es posible que desee probar y escribir dichos procedimientos en R, pero la vida es corta. Me gustaría resolver su problema y demostrar en este caso cómo funciona el procedimiento, publique los datos o envíelos a [email protected]1,2,3,4,5,...n 0,0,0,0,0,0,1,1,1,1,1
Comentario adicional después de recibir / analizar los datos / datos diarios para un tipo de cambio extranjero / 18 = 765 valores a partir del 1/1/2007
Los datos tenían un acf de:
Al identificar un modelo de arma de la forma y una serie de valores atípicos, el acf de los residuos indica aleatoriedad ya que los valores de acf son muy pequeños. AUTOBOX identificó una serie de valores atípicos:(1,1,0)(0,0,0)
El modelo final:
incluyó la necesidad de un aumento de estabilización de varianza a la TSAY donde se identificaron e incorporaron cambios de varianza en los residuos. El problema que tuvo con su ejecución automática fue que el procedimiento que estaba utilizando, como un contador, cree los datos en lugar de cuestionarlos a través de la detección de intervención (también conocida como detección de valores atípicos). He publicado un análisis completo aquí .
fuente
No hay una contraparte robusta lista para usar para la función arima en R (todavía) ; En caso de que aparezca, aparecerá aquí . Tal vez una alternativa es reducir las observaciones que están fuera de la norma con respecto a una regla de detección de valores atípicos univariantes simples, pero tampoco veo paquetes listos para usar para ejecutar la regresión ARMA ponderada. Otra alternativa posible sería entonces Winsorize los puntos periféricos:
fuente
Existe una literatura considerable sobre modelos robustos de series de tiempo. Martin y Yohai se encuentran entre los principales contribuyentes. Su trabajo se remonta a la década de 1980. Hice algo de trabajo para detectar valores atípicos en series de tiempo, pero Martin fue realmente uno de los muchos contribuyentes tanto a la detección de valores atípicos como a la estimación de parámetros en presencia de valores atípicos o residuos de cola pesada en las series de tiempo.
fuente
¿Cuál es el propósito de su modelo para pronosticar o analizar el historial? Si esto no es para pronosticar, y sabe que estos son los valores atípicos, simplemente agregue la variable ficticia, que es 1 en esas fechas y 0 en otras fechas. De esta manera, los coeficientes ficticios se ocuparán de los valores atípicos y podrá interpretar los otros coeficientes del modelo.
Si esto es para pronosticar, entonces tiene que hacerse dos preguntas: ¿volverán a ocurrir estos valores atípicos? si lo hicieran, ¿tengo que darles cuenta?
Por ejemplo, supongamos que sus series de datos tienen valores atípicos cuando los hermanos Lehman cayeron. es un evento que no tienes forma de predecir, obviamente, pero no puedes simplemente ignorarlo porque algo así sucederá en el futuro. si arroja un valor ficticio para valores atípicos, elimina efectivamente la incertidumbre de este evento de la variación de error. su pronóstico subestimará el riesgo de la cola; quizás no sea algo bueno para la gestión del riesgo. sin embargo, si va a producir la previsión de referencia de ventas, el ficticio funcionará, porque no está interesado en la cola, está interesado en los escenarios más probables, por lo que no tiene que tener en cuenta el evento impredecible para este propósito.
Por lo tanto, el propósito de su modelo afecta la forma en que trata los valores atípicos.
fuente