¿Por qué usar Root Mean Squared Error (RMSE) en lugar de Mean Absolute Error (MAE) ??
Hola
He estado investigando el error generado en un cálculo: inicialmente calculé el error como un error cuadrático normalizado medio raíz.
Mirando un poco más de cerca, veo que los efectos de cuadrar el error dan más peso a los errores más grandes que a los más pequeños, sesgando la estimación del error hacia un valor atípico extraño. Esto es bastante obvio en retrospectiva.
Entonces, mi pregunta: ¿en qué caso el error cuadrático medio sería una medida de error más apropiada que el error absoluto medio? ¿Esto último me parece más apropiado o me estoy perdiendo algo?
Para ilustrar esto, adjunto un ejemplo a continuación:
El diagrama de dispersión muestra dos variables con una buena correlación,
los dos histogramas a la derecha muestran el error entre Y (observado) e Y (predicho) usando RMSE normalizado (arriba) y MAE (abajo).
No hay valores atípicos significativos en estos datos y MAE da un error menor que RMSE. ¿Hay alguna racional, aparte de que sea preferible MAE, para usar una medida de error sobre la otra?
fuente
Respuestas:
Esto depende de su función de pérdida. En muchas circunstancias, tiene sentido dar más peso a los puntos más alejados de la media, es decir, estar apagado por 10 es más del doble de malo que estar apagado por 5. En tales casos, RMSE es una medida de error más apropiada.
Si estar apagado a las diez es el doble de malo que estar apagado a las 5, entonces MAE es más apropiado.
En cualquier caso, no tiene sentido comparar RMSE y MAE entre sí como lo hace en su penúltima oración ("MAE da un error menor que RMSE"). MAE nunca será más alto que RMSE debido a la forma en que se calculan. Solo tienen sentido en comparación con la misma medida de error: puede comparar RMSE para el Método 1 con RMSE para el Método 2, o MAE para el Método 1 con MAE para el Método 2, pero no puede decir que MAE es mejor que RMSE para el Método 1 porque es más pequeño.
fuente
Aquí hay otra situación en la que desea utilizar (R) MSE en lugar de MAE: cuando la distribución condicional de sus observaciones es asimétrica y desea un ajuste imparcial. El (R) MSE se minimiza por la media condicional , el MAE por la mediana condicional . Entonces, si minimiza el MAE, el ajuste estará más cerca de la mediana y sesgado.
Por supuesto, todo esto realmente depende de su función de pérdida.
El mismo problema ocurre si está utilizando el MAE o (R) MSE para evaluar predicciones o pronósticos . Por ejemplo, los datos de ventas de bajo volumen suelen tener una distribución asimétrica. Si optimiza el MAE, se sorprenderá al descubrir que el pronóstico óptimo de MAE es un pronóstico cero plano.
Aquí hay una pequeña presentación que cubre esto , y aquí hay un comentario invitado reciente sobre la competencia de pronóstico M4 donde expliqué este efecto .
fuente
N = 1e3; set.seed(1); y = rpois(N, lambda=1); yhat = c(y[2:N],0)
? La "diferencia" de densidades predictivas sería mínima, pero la realyhat
sería inútil. De acuerdo, este es un caso extremo. (Puede ser que falte algo obvio, que se disculpa por adelantado - no tengo acceso al papel sólo la presentación.)RMSE es una forma más natural de describir la pérdida en la distancia euclidiana. Por lo tanto, si lo grafica en 3D, la pérdida está en forma de cono, como puede ver arriba en verde. Esto también se aplica a las dimensiones superiores, aunque es más difícil visualizarlo.
MAE puede considerarse como una distancia a una manzana de la ciudad. En realidad, no es una forma tan natural de medir la pérdida, como se puede ver en el gráfico en azul.
fuente