Necesito automatizar el pronóstico de series temporales, y no sé de antemano las características de esas series (estacionalidad, tendencia, ruido, etc.).
Mi objetivo no es obtener el mejor modelo posible para cada serie, sino evitar modelos bastante malos. En otras palabras, obtener pequeños errores cada vez no es un problema, pero obtener grandes errores de vez en cuando sí lo es.
Pensé que podría lograr esto combinando modelos calculados con diferentes técnicas.
Es decir, aunque ARIMA sería el mejor enfoque para una serie específica, puede que no sea el mejor para otra serie; Lo mismo para el suavizado exponencial.
Sin embargo, si combino un modelo de cada técnica, incluso si un modelo no es tan bueno, el otro acercará la estimación al valor real.
Es bien sabido que ARIMA funciona mejor para series de buen comportamiento a largo plazo, mientras que el suavizado exponencial se destaca con series ruidosas a corto plazo.
- Mi idea es combinar modelos generados a partir de ambas técnicas para obtener pronósticos más sólidos, ¿tiene sentido?
Puede haber muchas formas de combinar esos modelos.
- Si este es un buen enfoque, ¿cómo debo combinarlos?
Una media simple de pronósticos es una opción, pero tal vez podría obtener mejores predicciones si pondera la media de acuerdo con alguna medida de bondad del modelo.
- ¿Cuál sería el tratamiento de la varianza al combinar modelos?
fuente
Respuestas:
Combinar pronósticos es una excelente idea. (Creo que no es una exageración decir que esta es una de las pocas cosas en las que los pronosticadores académicos están de acuerdo).
Resulta que escribí un artículo hace un tiempo buscando diferentes formas de ponderar los pronósticos combinándolos: http://www.sciencedirect.com/science/article/pii/S0169207010001032 Básicamente, el uso de pesas (Akaike) no mejoró consistentemente las combinaciones sobre medios o medianas simples o recortados / ganadores, por lo que personalmente lo pensaría dos veces antes de implementar un procedimiento complejo que puede no producir un beneficio definido (recuerde, sin embargo, que las combinaciones superaron consistentemente los métodos individuales de selección por criterios de información). Esto puede depender de la serie de tiempo particular que tenga, por supuesto.
Miré la combinación de intervalos de predicción en el documento anterior, pero no la combinación de la varianza como tal. Me parece recordar un artículo no hace mucho tiempo en la FIJ con este enfoque, por lo que es posible que desee buscar "combinar" o "combinación" a través de números anteriores de la FIJ.
Algunos otros documentos que han analizado la combinación de pronósticos están aquí (de 1989, pero una revisión) y aquí y aquí (también se analizan las densidades) y aquí y aquí. Muchos de estos señalan que todavía no se comprende bien por qué las combinaciones de pronóstico con frecuencia superan a los modelos seleccionados únicos. El penúltimo artículo es sobre la competencia de pronóstico M3; Uno de sus principales hallazgos fue (número (3) en la página 458) que "la precisión de la combinación de varios métodos supera, en promedio, los métodos específicos que se combinan y funciona bien en comparación con otros métodos". El último de estos documentos encuentra que las combinaciones no necesariamente funcionan mejor que los modelos individuales, pero que pueden reducir considerablemente el riesgo de falla catastrófica (que es uno de sus objetivos). Se debería encontrar más literatura en el International Journal of Forecasting , el Journal of Forecasting y para aplicaciones más específicas en la econometría o literatura de la cadena de suministro.
fuente
¿Por qué no especificarlo más? No creo que ningún modelo que produzca sea mejor o mejor que una elección específica.
Dicho esto, si puede reducir un poco sus opciones a las que puede probar y la entrada de datos se puede estandarizar, ¿por qué no escribir un procedimiento de prueba automatizado en R?
Supongamos que decide que sus datos se encontrarán dentro de un rango estimado por cinco modelos, así como un "respaldo". Digamos que puede caracterizar la entrada mediante diferentes pruebas. Luego, continúe y escriba un algoritmo R (o un programa como ese) que lo ejecute por usted. Esto funciona si pudiera generar un diagrama de flujo de qué modelo ejecutar en función de los datos de prueba, es decir, si algún punto del árbol de decisión es binario.
Si esto no es una opción porque la decisión puede no ser binaria, le sugiero que implemente un sistema de calificación basado en pruebas aplicables y ejecute algunos datos simulados de "casos extremos" a través de su cuadrícula para ver si los resultados son lo que está buscando.
Puede combinar estas cosas obviamente, por ejemplo, las pruebas de no estacionariedad pueden dar un sí definitivo sí-no, mientras que otros atributos pueden caer en un rango como la multicolinealidad.
Puede dibujar esto en papel primero, luego construirlo, simularlo con distribuciones conocidas que espera tener.
Luego, simplemente ejecute el programa R cada vez que lleguen nuevos datos. No veo la necesidad de combinar varios modelos con las capacidades computacionales que probablemente tenga a mano.
fuente
Hay una fórmula agradable y simple para combinar dos métodos de pronóstico, solo ponderalos multiplicando el primero por ay el otro por (1 - a), donde a se encuentra minimizando la varianza de este pronóstico combinado. Como conoce los errores de ambos métodos de pronóstico, puede calcular los errores de la combinación que dependerá de "a". El cálculo es simple cuando la media de cada método es = 0. Para combinar más de 2 métodos, las fórmulas siguen siendo "simples" en el sentido de que puede calcularlo analíticamente "a mano", o también usar la opción Solver de EXCEL
fuente