Interpretación del error escalado absoluto medio (MASE)

El error escalado absoluto medio (MASE) es una medida de la precisión del pronóstico propuesta por Koehler y Hyndman (2006) .

M A S E = \frac{M A E}{M A E_{i n - s a m p l e, n a i v e}}

$MASE=\frac{MAE}{MAE_{in-sample, \, naive}}$

donde es el error absoluto medio producido por el pronóstico real; mientras que es el error absoluto medio producido por un pronóstico ingenuo (por ejemplo, pronóstico sin cambios para una serie de tiempo integrada ), calculado sobre los datos en muestra. $MAE$
$MAE_{in-sample, \, naive}$ $I(1)$

(Consulte el documento de Koehler & Hyndman (2006) para obtener una definición y fórmula precisas).

$MASE>1$ implica que el pronóstico real es peor fuera de la muestra que un pronóstico ingenuo en la muestra, en términos de error absoluto medio. Por lo tanto, si el error absoluto medio es la medida relevante de la precisión del pronóstico (que depende del problema en cuestión), sugiere que el pronóstico real debe descartarse a favor de un pronóstico ingenuo si esperamos que los datos fuera de muestra ser bastante similar a los datos dentro de la muestra (porque solo sabemos qué tan bien se realizó un pronóstico ingenuo en la muestra, no fuera de la muestra). $MASE>1$

Pregunta:

$MASE=1.38$ se utilizó como punto de referencia en una competencia de pronóstico propuesta en esta publicación de blog de Hyndsight . ¿No debería un punto de referencia obvio haber sido ? $MASE=1$

Por supuesto, esta pregunta no es específica para la competencia de pronóstico particular. Me gustaría recibir ayuda para entender esto en un contexto más general.

Mi conjetura:

La única explicación sensata que veo es que se esperaba que un pronóstico ingenuo fuera bastante peor de la muestra que en la muestra, por ejemplo, debido a un cambio estructural. Entonces podría haber sido demasiado difícil de lograr. $MASE<1$

Referencias

Hyndman, Rob J. y Anne B. Koehler. " Otra mirada a las medidas de precisión del pronóstico " . International Journal of Forecasting 22.4 (2006): 679-688.
Publicación del blog de Hyndsight .

time-series forecasting accuracy mase Richard Hardy
fuente

En su publicación de blog, Rob señala de dónde proviene este punto de referencia: "Estos umbrales son los métodos de mejor desempeño en el análisis de estos datos descritos en Athanasopoulos et al (2010)". ¿Has mirado el periódico Athanosopoulos?

S. Kolassa - Restablece a Monica el

Estoy un poco desconcertado por "su suposición": un cambio estructural significaría que el pronóstico sofisticado se basaría en datos pasados en parte irrelevantes, de hecho. Pero cómo una ruptura estructural afectaría un pronóstico "sin cambio" depende de la ruptura. Si, por ejemplo, estamos viendo una caminata aleatoria con deriva, y la ruptura estructural significa que la deriva, el término constante, acaba de bajar , entonces el pronóstico "sin cambio" funcionará mejor después de la ruptura que antes.

Alecos Papadopoulos

@AlecosPapadopoulos: tienes razón. Sin embargo, me refiero a ser los datos de fuera de la muestra bastante diferentes de los de la muestra-datos como una condición necesaria, pero no una condición suficiente para esperar que

. Quizás no me expresé correctamente.

M A S E >> 1

$MASE>>1$

Richard Hardy

M A S E

$MASE$

Relacionado: stats.stackexchange.com/questions/124955/…

S. Kolassa - Restablece a Monica el

Respuestas:

En la publicación de blog vinculada , Rob Hyndman llama a participar en una competencia de pronóstico de turismo. Esencialmente, la publicación del blog sirve para llamar la atención sobre el artículo relevante de la FIJ , cuya versión no enlazada está vinculada a la publicación del blog.

Los puntos de referencia a los que se refiere: 1.38 para datos mensuales, 1.43 para datos trimestrales y 2.28 para datos anuales, aparentemente se obtuvieron de la siguiente manera. Los autores (todos ellos son pronosticadores expertos y muy activos en el IIF , aquí no hay vendedores de aceite de serpiente) son bastante capaces de aplicar algoritmos de pronóstico estándar o software de pronóstico, y probablemente no estén interesados en el envío simple de ARIMA. Entonces fueron y aplicaron algunos métodos estándar a sus datos. Para que la presentación ganadora sea invitada para un trabajo en la FIJ , solicitan que mejore el mejor de estos métodos estándar, medidos por el MASE.

Entonces, su pregunta esencialmente se reduce a:

Dado que un MASE de 1 corresponde a un pronóstico fuera de muestra tan bueno (por MAD) como el ingenioso pronóstico de caminata aleatoria dentro de la muestra, ¿por qué los métodos de pronóstico estándar como ARIMA no pueden mejorar en 1.38 para datos mensuales?

Aquí, el 1.38 MASE proviene de la Tabla 4 en la versión no delegada. Es el ASE promedio de los pronósticos de ARIMA para 1-24 meses por delante. Los otros métodos estándar, como ForecastPro, ETS, etc. funcionan aún peor.

$\exp(t)$ con métodos estándar Ninguno de estos capturará la tendencia de aceleración (y esto generalmente es una buena cosa, si su algoritmo de pronóstico a menudo modela una tendencia de aceleración, probablemente superará con creces su marca), y producirán un MASE que está por encima de 1. Otras explicaciones podrían , como usted dice, sean diferentes interrupciones estructurales, por ejemplo, cambios de nivel o influencias externas como el SARS o el 11 de septiembre, que no serían capturados por los modelos de referencia no causales, pero que podrían modelarse mediante métodos de pronóstico de turismo dedicados (aunque utilizando causales futuras en una muestra reservada es una especie de trampa).

Entonces, diría que es probable que no pueda decir mucho sobre esto sin mirar los datos ellos mismos. Están disponibles en Kaggle. Es probable que su mejor opción sea tomar estas series 518, resistir los últimos 24 meses, ajustarse a la serie ARIMA, calcular MASE, desenterrar las diez o veinte series de pronóstico MASE-peor, obtener una gran taza de café, mirar estas series y probar para descubrir qué es lo que hace que los modelos ARIMA sean tan malos para pronosticarlos.

EDITAR: otro punto que parece obvio después del hecho, pero me tomó cinco días para verlo; recuerde que el denominador del MASE es el pronóstico de caminata aleatoria en la muestra de un paso adelante , mientras que el numerador es el promedio del 1-24- adelantarse a las previsiones. No es demasiado sorprendente que los pronósticos se deterioren con los horizontes crecientes, por lo que esta puede ser otra razón para un MASE de 1.38. Tenga en cuenta que el pronóstico Naive estacional también se incluyó en el punto de referencia y tuvo un MASE aún mayor.

S. Kolassa - Restablece a Monica
fuente

¡Gran respuesta! Gracias por el resumen conciso del documento original (servirá como un atajo útil para todos los no iniciados). Parece que la idea principal detrás de su respuesta no está en conflicto con mi suposición (sino que la extiende); hay algo especial fuera de la muestra que el error de pronóstico ingenuo dentro de la muestra subestima.

Richard Hardy

No es una respuesta, sino una trama tras la llamada de Stephan Kolassa a "mirar estas series".
Kaggle Tourism1 tiene 518 series temporales anuales, para las cuales queremos predecir los últimos 4 valores:

ingrese la descripción de la imagen aquí

$5^{th}$
$\qquad Error4( y ) \equiv {1 \over 4} \sum_ {last\ 4} |y_i - y_{-5}|$
$Error4(y)$ $length(y)$

Obviamente, las series muy cortas (12 11 7 7 7 ... en la fila superior) son difíciles de predecir: no es de extrañar.
(Athanasopoulos, Hyndman, Song y Wu, The Tourism Forecasting Competition (2011, 23p) utilizaron 112 de las 518 series anuales, pero no veo cuáles.)

¿Hay otras colecciones más nuevas de series de tiempo desde 2010 que valga la pena mirar?

denis
fuente

¡Gracias! No sé la respuesta a tu última pregunta.

Richard Hardy

@denis: acabo de ver su pregunta; es posible que desee solicitar datos en OpenData.SE .

S. Kolassa - Restablece a Monica