¿Error absoluto medio o error cuadrático medio raíz?

59

¿Por qué usar Root Mean Squared Error (RMSE) en lugar de Mean Absolute Error (MAE) ??

Hola

He estado investigando el error generado en un cálculo: inicialmente calculé el error como un error cuadrático normalizado medio raíz.

Mirando un poco más de cerca, veo que los efectos de cuadrar el error dan más peso a los errores más grandes que a los más pequeños, sesgando la estimación del error hacia un valor atípico extraño. Esto es bastante obvio en retrospectiva.

Entonces, mi pregunta: ¿en qué caso el error cuadrático medio sería una medida de error más apropiada que el error absoluto medio? ¿Esto último me parece más apropiado o me estoy perdiendo algo?

Para ilustrar esto, adjunto un ejemplo a continuación:

  • El diagrama de dispersión muestra dos variables con una buena correlación,

  • los dos histogramas a la derecha muestran el error entre Y (observado) e Y (predicho) usando RMSE normalizado (arriba) y MAE (abajo).

ingrese la descripción de la imagen aquí

No hay valores atípicos significativos en estos datos y MAE da un error menor que RMSE. ¿Hay alguna racional, aparte de que sea preferible MAE, para usar una medida de error sobre la otra?

usuario1665220
fuente
99
Debido a que RMSE y MAE son dos medidas diferentes de error, una comparación numérica entre ellos (que implica afirmar que MAE es "más bajo" que RMSE) no parece tener sentido. Esa línea debe haberse ajustado de acuerdo con algún criterio: ese criterio, sea cual sea, debe ser la medida de error relevante.
whuber
la línea se ajustó utilizando mínimos cuadrados, pero la imagen es solo un ejemplo para mostrar la diferencia en el error medido. Mi verdadero problema es usar un optimizador para resolver cuatro parámetros de función en alguna medida de error minimizado, MAE o RMSE.
user1665220
Gracias por la aclaración. Pero, ¿qué error te interesa, precisamente? ¿El error en el ajuste o los errores en las estimaciones de los parámetros ?
whuber
1
El error en el ajuste. Tengo algunas muestras de laboratorio que dan y, que quiero predecir usando una función. Optimizo la función para 4 exponentes minimizando el error para el ajuste entre los datos observados y pronosticados.
user1665220
En RMSE consideramos la raíz del número de elementos (n). Esa es la raíz de MSE dividida por la raíz de n. La raíz de MSE está bien, pero en lugar de dividirse por n, se divide por la raíz de n para recibir RMSE. Siento que sería una política. La realidad sería (Raíz de MSE) / n. De esa manera, MAE es mejor.

Respuestas:

58

Esto depende de su función de pérdida. En muchas circunstancias, tiene sentido dar más peso a los puntos más alejados de la media, es decir, estar apagado por 10 es más del doble de malo que estar apagado por 5. En tales casos, RMSE es una medida de error más apropiada.

Si estar apagado a las diez es el doble de malo que estar apagado a las 5, entonces MAE es más apropiado.

En cualquier caso, no tiene sentido comparar RMSE y MAE entre sí como lo hace en su penúltima oración ("MAE da un error menor que RMSE"). MAE nunca será más alto que RMSE debido a la forma en que se calculan. Solo tienen sentido en comparación con la misma medida de error: puede comparar RMSE para el Método 1 con RMSE para el Método 2, o MAE para el Método 1 con MAE para el Método 2, pero no puede decir que MAE es mejor que RMSE para el Método 1 porque es más pequeño.

Jonathan Christensen
fuente
Entiendo que MAE nunca será más alto que RMSE. He estado usando estimaciones de error y analizando la diferencia entre valores para dar una indicación del impacto de los valores atípicos. Es decir, cuando están muy cerca, cuando se separan más, investigo para ver qué está pasando. En última instancia, quiero predecir los parámetros que mejor se adaptan a los datos y, por ejemplo, el 9% de error suena mejor que el 12%; solo quería asegurarme de que estoy eligiendo el correcto por la razón correcta. Saludos por su consejo
usuario1665220
La principal diferencia entre RMSE (en consecuencia, MSE) y MAE no se trata de cómo ponderan los errores. Puede usar una función de peso si es necesario. La principal diferencia es que MSE está relacionado con el espacio L2 (MAE no tiene tal cosa). Entonces, por ejemplo, MSE podría medir la cantidad de energía necesaria para un control de circuito cerrado cuando E es la señal de retroalimentación (Recuerde que el cuadrado medio de una señal, Error en este caso, es proporcional a su energía). También gran parte de las matemáticas y, en consecuencia, algoritmos como Marquardt-Levenberg funcionan en este espacio. En pocas palabras, utilizan MSE como su función objetivo.
eulerleibniz
17

Aquí hay otra situación en la que desea utilizar (R) MSE en lugar de MAE: cuando la distribución condicional de sus observaciones es asimétrica y desea un ajuste imparcial. El (R) MSE se minimiza por la media condicional , el MAE por la mediana condicional . Entonces, si minimiza el MAE, el ajuste estará más cerca de la mediana y sesgado.

Por supuesto, todo esto realmente depende de su función de pérdida.

El mismo problema ocurre si está utilizando el MAE o (R) MSE para evaluar predicciones o pronósticos . Por ejemplo, los datos de ventas de bajo volumen suelen tener una distribución asimétrica. Si optimiza el MAE, se sorprenderá al descubrir que el pronóstico óptimo de MAE es un pronóstico cero plano.

Aquí hay una pequeña presentación que cubre esto , y aquí hay un comentario invitado reciente sobre la competencia de pronóstico M4 donde expliqué este efecto .

S. Kolassa - Restablece a Monica
fuente
+1. La idea de comparar distribuciones es genial, pero ... ¿una métrica como la que presentas no fallaría miserablemente en algo así N = 1e3; set.seed(1); y = rpois(N, lambda=1); yhat = c(y[2:N],0)? La "diferencia" de densidades predictivas sería mínima, pero la real yhatsería inútil. De acuerdo, este es un caso extremo. (Puede ser que falte algo obvio, que se disculpa por adelantado - no tengo acceso al papel sólo la presentación.)
usεr11852 dice Restablecer Monic
@ usεr11852: sí, su secuencia de pronósticos puntuales sería inútil y, en particular, mucho peor que un pronóstico plano (que es tanto la media como la mediana, por lo que es óptima tanto para MAE como para MSE) . ¡Un pronóstico de densidad no es solo una secuencia de pronósticos puntuales! Es una predicción de densidad completa para cada punto de tiempo futuro . Así que nos predicen un Pois (1) para el primer punto en el tiempo, para el segundo, el tercer, etc.y^=1
S. Kolassa - Restablecer Monica
Muchas gracias por las aclaraciones; Puedo conceptualizar mejor la presentación ahora. (Hmm ... necesito conseguir tu papel después de todo. :))
usεr11852 dice Reinstate Monic el
@ usεr11852: no dude en ponerse en contacto conmigo por correo electrónico ( encuentre la dirección aquí ); si su correo no termina en mi filtro de spam, con gusto le enviaré ese documento.
S. Kolassa - Restablece a Mónica el
@ usεr11852 Te perdí completamente después de "like N =" ¿qué es eso?
Sak
5

ingrese la descripción de la imagen aquí

RMSE es una forma más natural de describir la pérdida en la distancia euclidiana. Por lo tanto, si lo grafica en 3D, la pérdida está en forma de cono, como puede ver arriba en verde. Esto también se aplica a las dimensiones superiores, aunque es más difícil visualizarlo.

MAE puede considerarse como una distancia a una manzana de la ciudad. En realidad, no es una forma tan natural de medir la pérdida, como se puede ver en el gráfico en azul.

dan dan
fuente