¿Por qué usar una determinada medida de error de pronóstico (por ejemplo, MAD) en lugar de otra (por ejemplo, MSE)?

15

MAD = Desviación absoluta media MSE = Error cuadrado medio

He visto sugerencias de varios lugares sobre el uso de MSE a pesar de algunas cualidades indeseables (por ejemplo , http://www.stat.nus.edu.sg/~staxyc/T12.pdf , que establece en p8 "Se cree comúnmente que MAD es un criterio mejor que MSE. Sin embargo, matemáticamente MSE es más conveniente que MAD ".

¿Hay algo más que eso? ¿Existe un documento que analice a fondo las situaciones en las que varios métodos para medir el error de pronóstico son más / menos apropiados? Mis búsquedas en Google no han revelado nada.

Una pregunta similar a esta se hizo en /programming/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sde , y se le pidió al usuario que publique en stats.stackexchange.com, pero no creo que lo hayan hecho nunca.

user1205901 - Restablecer Monica
fuente
2
MAD es típicamente la mediana de la desviación absoluta en lugar de la media, ¿no?
Brian D
@BrianD: en la comunidad estadística más amplia, tienes razón. En la comunidad de predicción más limitada , "MAD" es invariablemente la "desviación absoluta media", también conocida como MAE .
Stephan Kolassa

Respuestas:

23

Para decidir qué medida de error de pronóstico puntual usar, debemos dar un paso atrás. Tenga en cuenta que no conocemos el resultado futuro a la perfección, ni lo sabremos nunca. Entonces, el resultado futuro sigue una distribución de probabilidad . Algunos métodos de pronóstico generan explícitamente una distribución tan completa, y otros no, pero siempre está ahí, aunque sea de manera implícita.

Ahora, queremos tener una buena medida de error para un pronóstico puntual . Tal pronóstico puntual Ft es nuestro intento de resumir lo que sabemos sobre la distribución futura (es decir, la distribución predictiva) en el tiempo t usando un solo número, un llamado funcional de la densidad futura. La medida de error es una forma de evaluar la calidad de este resumen de un solo número.

Por lo tanto, debe elegir una medida de error que recompense "buenos" resúmenes de un número de densidades futuras (desconocidas, posiblemente pronosticadas, pero posiblemente solo implícitas).

El desafío es que las diferentes medidas de error son minimizadas por diferentes funcionales. El MSE esperado se minimiza por el valor esperado de la distribución futura. El MAD esperado se minimiza por la mediana de la distribución futura. Por lo tanto, si calibra sus pronósticos para minimizar el MAE, su pronóstico puntual será la mediana futura, no el valor esperado futuro, y sus pronósticos serán sesgados si su distribución futura no es simétrica.

Esto es más relevante para los datos de conteo, que generalmente están sesgados. En casos extremos (por ejemplo, Poisson distribuyó ventas con una media por debajo de log20.69 ), su MAE será más bajo para un pronóstico de cero plano. Ver aquí o aquí o aquí para más detalles.

Doy más información y una ilustración en ¿Cuáles son las deficiencias del error de porcentaje absoluto medio (MAPE)? Ese hilo considera el , pero también otras medidas de error, y contiene enlaces a otros hilos relacionados.


Al final, qué medida de error usar realmente depende de su costo de error de pronóstico, es decir, qué tipo de error es más doloroso. Sin mirar las implicaciones reales de los errores de pronóstico, cualquier discusión sobre "mejores criterios" básicamente no tiene sentido.

Las medidas de precisión del pronóstico fueron un gran tema en la comunidad de pronósticos hace algunos años, y todavía aparecen de vez en cuando. Un artículo muy bueno para mirar es Hyndman & Koehler "Otra mirada a las medidas de precisión de pronóstico" (2006).

Finalmente, una alternativa es calcular las densidades predictivas completas y evaluarlas utilizando adecuadas .

Stephan Kolassa
fuente
Gracias por la respuesta y el enlace. No estaba familiarizado con el término "Costo del error de pronóstico". Parece que se relaciona con situaciones en las que (por ejemplo) una empresa pronostica cuántos widgets venderá, y quizás el dolor que sufren por sobreestimar es el doble que el dolor que sufren por subestimar. Sin embargo, estoy pensando principalmente en un contexto en el que los laicos están haciendo pronósticos sin ningún costo aparente de error de pronóstico (por ejemplo, "¿Cuántos tweets hará Bill Gates en los próximos 5 meses?"). En tal situación, ¿mi elección de medida de error será arbitraria?
user1205901 - Restablecer Monica
33
El costo del error de pronóstico se ha discutido en la revista orientada a profesionales Foresight : forecasters.org/foresight ¡ Muy recomendable! (Divulgación completa: soy editor asociado.) Estoy de acuerdo en que el CoFE no es evidente en su ejemplo, pero luego me pregunto cuánto esfuerzo realmente debería dedicar a optimizar su medida de error ...
Stephan Kolassa
4

Las ventajas de usar MAE en lugar de MSE se explican en Davydenko y Fildes (2016) , consulte la Sección 3.1:

... Algunos autores (por ejemplo, Zellner, 1986) argumentan que el criterio por el cual evaluamos los pronósticos debería corresponder al criterio por el cual optimizamos los pronósticos. En otras palabras, si optimizamos las estimaciones usando alguna función de pérdida dada, debemos usar la misma función de pérdida para la evaluación empírica con el fin de descubrir qué modelo es mejor.

Ajustar un modelo estadístico generalmente ofrece pronósticos óptimos bajo pérdida cuadrática. Esto, por ejemplo, sucede cuando ajustamos una regresión lineal. Si nuestro pronóstico de densidad del modelado estadístico es simétrico, entonces los pronósticos óptimos bajo pérdida cuadrática también son óptimos bajo pérdida lineal. Pero, si estabilizamos la varianza mediante transformaciones logarítmicas y luego transformamos los pronósticos por exponenciación, obtenemos pronósticos óptimos solo bajo pérdida lineal. Si usamos otra pérdida, primero debemos obtener el pronóstico de densidad usando un modelo estadístico, y luego ajustar nuestra estimación dada nuestra función de pérdida específica (ver ejemplos de esto en Goodwin, 2000).

Supongamos que queremos comparar empíricamente dos métodos y descubrir qué método es mejor en términos de una pérdida lineal simétrica (ya que este tipo de pérdida se usa comúnmente en el modelado). Si solo tenemos una serie de tiempo, parece natural usar un error absoluto medio (MAE). Además, MAE es atractivo ya que es fácil de entender y calcular (Hyndman, 2006) ...

Referencias

Davydenko, A. y Fildes, R. (2016). Medidas de error de pronóstico: revisión crítica y recomendaciones prácticas. En previsión empresarial: problemas prácticos y soluciones. John Wiley & Sons

Turbofly
fuente
¿Podría dar una cita completa al periódico, en lugar de solo "Davydenko y Fildes, 2016"?
Silverfish
Nos gusta que nuestras respuestas sean independientes, para que no se vean afectados negativamente por los enlaces que se apagan. ¿Crees que podrías ampliar un poco tu respuesta, para resumir cuáles creías que eran los puntos clave de su contenido que son relevantes para esta pregunta? De lo contrario, esto es realmente más adecuado para un comentario que una respuesta. (Le agradezco que todavía no tenga suficiente reputación para publicar comentarios, pero podemos convertirlo en uno para usted.)
Silverfish
1
¡Gracias por su respuesta! Esto es lo que dice (Davydenko y Fildes, 2016): ajustar un modelo estadístico generalmente ofrece pronósticos óptimos bajo pérdida cuadrática. Esto, por ejemplo, sucede cuando ajustamos una regresión lineal. Si nuestro pronóstico de densidad del modelado estadístico es simétrico, entonces los pronósticos óptimos bajo pérdida cuadrática también son óptimos bajo pérdida lineal. Pero, si estabilizamos la varianza mediante transformaciones logarítmicas y luego transformamos los pronósticos por exponenciación, obtenemos pronósticos óptimos solo bajo pérdida lineal.
Turbofly
1
¡Gracias! Puede editar esta información en su respuesta (el botón "editar" se encuentra en la parte inferior de su publicación).
Silverfish
Muchas gracias. He formateado un poco y he dado una cita completa.
Silverfish
3

¿Por qué no comparar RMSE=MSEMAE=MAD

Realmente,

MAERMSEnMAE

  • e
    RMSE=1nei2=1nne2=e=MAE
  • e
    MAE=en
    RMSE=1nei2=1ne2=1n(nMAE)2=nMAE

MAERMSEMAEyiy^i[0,1]

  • ei1
    MAE=nwrongn
    RMSE=1nei2=1nnwrong=MAE
    nwrongei[0,1]ei<1

Si el RMSE está cerca del MAE, tiene muchas pequeñas desviaciones, si está cerca de su límite superior, hay pocas predicciones muy erróneas.

cbeleites apoya a Monica
fuente
¿te refieres a sqrt (n) * MAE o sqrt (n * MAE) como límite superior?
Chris
1
@ Chris: es sqrt (n) * MAE, mira mi edición.
cbeleites apoya a Monica el