Tengo una pregunta relacionada con el modelado de series cortas de tiempo. No se trata de modelarlos , sino de cómo. ¿Qué método recomendaría para modelar series de tiempo (muy) cortas (digamos de longitud )? Por "mejor" quiero decir aquí el más robusto, que es el menos propenso a errores debido al número limitado de observaciones. Con series cortas, las observaciones individuales podrían influir en el pronóstico, por lo que el método debería proporcionar una estimación cautelosa de los errores y la posible variabilidad relacionada con el pronóstico. En general, estoy interesado en series de tiempo univariadas, pero también sería interesante conocer otros métodos.
35
Mcomp
paquete para R), 504 tienen 20 o menos observaciones, específicamente 55% de la serie anual. Por lo que podría buscar la publicación original y ver lo que funcionó bien para los datos anuales. O incluso excavar a través de las previsiones originales presentadas al concurso M3, que están disponibles en elMcomp
paquete (listaM3Forecast
).Respuestas:
Es muy común que los métodos de pronóstico extremadamente simples como "pronosticar el promedio histórico" superen a los métodos más complejos. Esto es aún más probable para series de tiempo cortas. Sí, en principio puede ajustar un ARIMA o un modelo aún más complejo a 20 o menos observaciones, pero es muy probable que se sobreajuste y obtenga pronósticos muy malos.
Entonces: comience con un punto de referencia simple, por ejemplo,
Evaluar estos en datos fuera de la muestra. Compare cualquier modelo más complejo con estos puntos de referencia. Es posible que se sorprenda al ver lo difícil que es superar estos métodos simples. Además, compare la solidez de los diferentes métodos con estos simples, por ejemplo, no solo evaluando la precisión promedio fuera de la muestra, sino también la varianza del error , utilizando su medida de error favorita .
Sí, como Rob Hyndman escribe en su publicación a la que Aleksandr se vincula , las pruebas fuera de muestra son un problema en sí mismo para series cortas, pero realmente no hay una buena alternativa. ( No utilice el ajuste en la muestra, que no es una guía para la precisión del pronóstico ). El AIC no lo ayudará con la mediana y la caminata aleatoria. Sin embargo, podría utilizar la validación cruzada de series temporales , que de todos modos se aproxima a AIC.
fuente
Nuevamente estoy usando una pregunta como una oportunidad para aprender más sobre series de tiempo , uno de los (muchos) temas de mi interés. Después de una breve investigación, me parece que existen varios enfoques para el problema de modelar series de tiempo cortas.
El primer enfoque es el uso de modelos estándar / lineales de series de tiempo (AR, MA, ARMA, etc.), pero para prestar atención a ciertos parámetros, como se describe en este post [1] por Rob Hyndman, que no necesita una introducción en la series de tiempo y el mundo de pronóstico. El segundo enfoque, referido por la mayor parte de la literatura relacionada que he visto, sugieren el uso de modelos de series de tiempo no lineales , en particular, los modelos de umbral [2], que incluyen umbral modelo autorregresivo (TAR) , TAR auto-salir ( SETAR) , autorregresivo umbral mover modelo de media (TARMA) , y TARMAX modelo, que se extiende TARmodelar a las series de tiempo exógenos. Excelentes descripciones de los modelos de series de tiempo no lineales, incluyendo los modelos de umbral, se pueden encontrar en este documento [3] y el presente documento [4].
Por último, otro relacionado mi humilde opinión trabajo de investigación [5] describe un enfoque interesante, que se basa en Volterra-Weiner representación de los sistemas no lineales - ver esta [6] y esta [7]. Este enfoque se argumenta que es superior a otras técnicas en el contexto de la serie de tiempo corto y ruidoso .
Referencias
fuente
No, no existe el mejor método de extrapolación univariante para series cortas con series . Los métodos de extrapolación necesitan muchísimos datos.T≤20
Los siguientes métodos cualitativos funcionan bien en la práctica para datos muy cortos o sin datos:
Uno de los mejores métodos que sé que funciona muy bien es el uso de analogías estructuradas (5º en la lista anterior) donde busca productos similares / análogos en la categoría que está tratando de pronosticar y los usa para pronosticar pronósticos a corto plazo. . Consulte este artículo para ver ejemplos, y el documento SAS sobre "cómo" hacer esto usando, por supuesto, SAS. Una limitación es que el pronóstico por analogías funcionará solo si usted tiene buenas analogías, de lo contrario podría confiar en un pronóstico crítico. Aquí hay otro video del software Forecastpro sobre cómo usar una herramienta como Forecastpro para hacer pronósticos por analogía. Elegir una analogía es más arte que ciencia y necesita experiencia en el dominio para seleccionar productos / situaciones análogas.
Dos excelentes recursos para pronosticar productos nuevos o cortos:
Lo siguiente es para fines ilustrativos. Acabo de leer Signal and Noisepor Nate Silver, en el sentido de que hay un buen ejemplo de la burbuja y predicción del mercado inmobiliario estadounidense y japonés (análogo al mercado estadounidense). En el cuadro a continuación, si se detiene en 10 puntos de datos y usa uno de los métodos de extrapolación (smooting exponencial / ets / arima ...) y vea a dónde lo lleva y dónde terminó el real. Nuevamente, el ejemplo que presenté es mucho más complejo que la simple extrapolación de tendencias. Esto es solo para resaltar los riesgos de la extrapolación de tendencias utilizando puntos de datos limitados. Además, si su producto tiene un patrón estacional, debe usar alguna forma de situación de productos análogos para pronosticar. Leí un artículo que creo en la investigación de Journal of Business que si tiene 13 semanas de ventas de productos farmacéuticos, podría predecir los datos con mayor precisión utilizando productos análogos.
fuente
La suposición de que el número de observaciones es crítica provino de un comentario espontáneo de GEP Box sobre el tamaño mínimo de la muestra para identificar un modelo. En lo que a mí respecta, una respuesta más matizada es que el problema / calidad de la identificación del modelo no se basa únicamente en el tamaño de la muestra sino en la relación de señal a ruido que se encuentra en los datos. Si tiene una relación señal / ruido fuerte, necesita menos observaciones. Si tiene bajo s / n, entonces necesita más muestras para identificar. Si su conjunto de datos es mensual y tiene 20 valores, no es posible identificar empíricamente un modelo estacional SIN EMBARGO si cree que los datos pueden ser estacionales, entonces puede comenzar el proceso de modelado especificando un ar (12) y luego hacer diagnósticos del modelo ( pruebas de importancia) para reducir o aumentar su modelo estructuralmente deficiente
fuente
Con datos muy limitados, estaría más inclinado a ajustar los datos utilizando técnicas bayesianas.
La estacionariedad puede ser un poco complicada cuando se trata de modelos de series temporales bayesianas. Una opción es imponer restricciones en los parámetros. O no pudiste. Esto está bien si solo quiere ver la distribución de los parámetros. Sin embargo, si desea generar la predicción posterior, es posible que tenga muchos pronósticos que exploten.
La documentación de Stan proporciona algunos ejemplos en los que imponen restricciones a los parámetros de los modelos de series temporales para garantizar la estacionariedad. Esto es posible para los modelos relativamente simples que usan, pero puede ser prácticamente imposible en modelos de series de tiempo más complicados. Si realmente quisiera imponer la estacionariedad, podría usar un algoritmo de Metropolis-Hastings y arrojar cualquier coeficiente que sea incorrecto. Sin embargo, esto requiere que se calculen muchos valores propios, lo que ralentizará las cosas.
fuente
El problema, como sabiamente señaló, es el "sobreajuste" causado por procedimientos fijos basados en listas. Una forma inteligente es tratar de mantener la ecuación simple cuando tiene una cantidad insignificante de datos. Después de muchas lunas, he descubierto que si simplemente usa un modelo AR (1) y deja la tasa de adaptación (el coeficiente ar) a los datos, las cosas pueden funcionar razonablemente bien. Por ejemplo, si el coeficiente ar estimado es cercano a cero, esto significa que la media general sería apropiada. si el coeficiente está cerca de +1.0, entonces esto significa que el último valor (ajustado para una constante es más apropiado. Si el coeficiente está cerca de -1.0, entonces el negativo del último valor (ajustado para una constante) sería el mejor pronóstico. Si el coeficiente es diferente, significa que es apropiado un promedio ponderado del pasado reciente.
Esto es precisamente con lo que AUTOBOX comienza y luego descarta las anomalías, ya que ajusta el parámetro estimado cuando se encuentra un "pequeño número de observaciones".
Este es un ejemplo del "arte de pronosticar" cuando un enfoque basado en datos puros podría ser inaplicable.
El siguiente es un modelo automático desarrollado para los 12 puntos de datos sin preocuparse por las anomalías. con real / ajuste y pronóstico aquí y gráfico residual aquí
fuente