Estoy usando una serie temporal diaria de datos de ventas que contiene aproximadamente 2 años de puntos de datos diarios. Basado en algunos de los tutoriales / ejemplos en línea, traté de identificar la estacionalidad en los datos. Parece que hay una periodicidad / estacionalidad semanal, mensual y probablemente anual.
Por ejemplo, hay días de pago, particularmente el primer día de pago del mes, el efecto dura unos pocos días durante la semana. También hay algunos efectos específicos de vacaciones, claramente identificables al observar las observaciones.
Equipado con algunas de estas observaciones, probé lo siguiente:
ARIMA (con
Arima
yauto.arima
desde el paquete R-Forecast), utilizando regresor (y otros valores predeterminados necesarios en la función). El regresor que creé es básicamente una matriz de valores 0/1:- Variables de 11 meses (n-1)
- 12 variables de vacaciones
- No se pudo entender la parte del día de pago ... ya que es un efecto poco más complicado de lo que pensaba. El efecto de día de pago funciona de manera diferente, dependiendo del día de la semana del 1 de mes.
Usé 7 (es decir, frecuencia semanal) para modelar la serie de tiempo. Probé la prueba, pronosticando 7 días a la vez. Los resultados son razonables: la precisión promedio para un pronóstico de 11 semanas llega a un RMSE promedio semanal de 5%.
Modelo TBATS (del paquete R-Forecast): utiliza la estacionalidad múltiple (7, 30.4375, 365.25) y obviamente no regresor. La precisión es sorprendentemente mejor que el modelo ARIMA a un promedio semanal de RMSE de 3.5%.
En este caso, el modelo sin errores ARMA funciona ligeramente mejor. Ahora, si aplico los coeficientes solo para los efectos de vacaciones del modelo ARIMA descrito en el n. ° 1, a los resultados del modelo TBATS, el RMSE promedio semanal mejora a 2.95%
Ahora, sin tener muchos antecedentes o conocimientos sobre las teorías subyacentes de estos modelos, tengo el dilema de si este enfoque TBATS es incluso válido. Aunque está mejorando significativamente el RMSE en la prueba de 11 semanas, me pregunto si puede mantener esta precisión en el futuro. O incluso si la aplicación de efectos de vacaciones de ARIMA al resultado TBATS es justificable. Cualquier idea de cualquiera / todos los contribuyentes será muy apreciada.
Nota: Haga "Guardar enlace como" para descargar el archivo.
Respuestas:
Debería estar evaluando modelos y pronósticos de diferentes orígenes en diferentes horizontes y no un solo número para medir un enfoque.
Supongo que sus datos son de los EE. UU. Prefiero más de 3 años de datos diarios, ya que puede tener dos días festivos aterrizando en un fin de semana y no obtener lectura de lunes a viernes. Parece que su impacto de Acción de Gracias es un día libre en el 2012 o hubo un error de grabación de algún tipo y causó que el modelo omitiera el efecto del día de Acción de Gracias.
Los enero generalmente son bajos en el conjunto de datos si se mira como un% del año. Los fines de semana son altos. Los dummies reflejan este comportamiento ... MONTH_EFF01, FIXED_EFF_N10507, FIXED_EFF_N10607
He descubierto que el uso de un componente AR con datos diarios supone que el patrón de las últimas dos semanas del día de la semana es cómo es el patrón en general, lo cual es una gran suposición. Comenzamos con 11 dummies mensuales y 6 dummies diarios. Algunos abandonaron el modelo. B ** 1 significa que hay un retraso en el impacto el día después de un feriado. Hubo 6 días especiales del mes (días 2,3,5,21,29,30 ---- 21 podrían ser espurios?) Y 3 tendencias de tiempo, 2 pulsos estacionales (donde un día de la semana comenzó a desviarse del típico, un 0 antes de estos datos y un 1 cada 7 días después) y 2 valores atípicos (¡tenga en cuenta la acción de gracias!) Esto tardó menos de 7 minutos en ejecutarse. Descargue todos los resultados aquí www.autobox.com/se/dd/daily.zip
Incluye una hoja XLS rápida y sucia para verificar si el modelo tiene sentido. Por supuesto, el XLS% es de hecho malo, ya que son puntos de referencia crudos.
Intenta estimar este modelo:
fuente