¿Minimizar el error al cuadrado equivale a minimizar el error absoluto? ¿Por qué el error al cuadrado es más popular que este último?

39

Cuando llevamos a cabo una regresión lineal para adaptarse a un grupo de puntos de datos ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) , el enfoque clásico minimiza el error al cuadrado. Durante mucho tiempo me ha intrigado una pregunta que minimizará el error al cuadrado producirá el mismo resultado que minimizar el error absolutoy=ax+b(x1,y1),(x2,y2),...,(xn,yn)? Si no, ¿por qué es mejor minimizar el error al cuadrado? ¿Hay alguna otra razón que no sea "la función objetivo es diferenciable"?

El error cuadrado también se usa ampliamente para evaluar el rendimiento del modelo, pero el error absoluto es menos popular. ¿Por qué el error al cuadrado se usa más comúnmente que el error absoluto? Si tomar derivados no está involucrado, calcular el error absoluto es tan fácil como calcular el error al cuadrado, entonces ¿por qué el error al cuadrado es tan frecuente ? ¿Hay alguna ventaja única que pueda explicar su prevalencia?

Gracias.

Tony
fuente
Siempre hay algún problema de optimización detrás y desea poder calcular gradientes para encontrar el mínimo / máximo.
Vladislavs Dovgalecs
11
para x ( - 1 , 1 ) y x 2 > | x | si | x | > 1 . Por lo tanto, el error al cuadrado penaliza los errores grandes más que el error absoluto y es más indulgente con los errores pequeños que el error absoluto. Esto concuerda bien con lo que muchos piensan que es una forma apropiada de hacer las cosas. x2<|x|x(1,1)x2>|x|El |XEl |>1
Dilip Sarwate

Respuestas:

47

Minimizar los errores cuadrados (MSE) definitivamente no es lo mismo que minimizar las desviaciones absolutas (MAD) de los errores. MSE proporciona la respuesta media de condicionada por x , mientras que MAD proporciona la respuesta media de y condicionada por x .yXyX

Históricamente, Laplace consideró originalmente el error máximo observado como una medida de la corrección de un modelo. Pronto pasó a considerar MAD en su lugar. Debido a su incapacidad para resolver con exactitud ambas situaciones, pronto consideró el MSE diferencial. Él y Gauss (aparentemente al mismo tiempo) derivaron las ecuaciones normales, una solución de forma cerrada para este problema. Hoy en día, resolver el MAD es relativamente fácil mediante la programación lineal. Sin embargo, como es bien sabido, la programación lineal no tiene una solución de forma cerrada.

Desde una perspectiva de optimización, ambos corresponden a funciones convexas. Sin embargo, MSE es diferenciable, lo que permite métodos basados ​​en gradientes, mucho más eficientes que su contraparte no diferenciable. MAD no es diferenciable en .X=0 0

Una razón teórica adicional es que, en un entorno bayesiano, cuando se asumen los antecedentes uniformes de los parámetros del modelo, MSE produce errores distribuidos normales, que se han tomado como prueba de la corrección del método. A los teóricos les gusta la distribución normal porque creen que es un hecho empírico, mientras que a los experimentales les gusta porque creen que es un resultado teórico.

Una razón final de por qué MSE puede haber tenido la amplia aceptación que tiene es que se basa en la distancia euclidiana (de hecho, es una solución del problema de proyección en un espacio euclidiano de Banach) que es extremadamente intuitiva dada nuestra realidad geométrica.

Asterion
fuente
1
(+1) para la referencia a Laplace!
Xi'an
2
"A los teóricos les gusta la distribución normal porque creen que es un hecho empírico, mientras que a los experimentales les gusta porque creen que es un resultado teórico". -- Me encanta. ¿Pero no hay también aplicaciones físicas directas para la distribución gaussiana? Y también están las cosas sobre las distribuciones máximas de entropía
shadowtalker
8
@ssdecontrol Creo que el epigrama se debe a Henri Poincaré hace poco más de cien años. Tout le monde y croit cependant, me desait un un m M. Lippmann, coche les experimentadores que imaginan que teorema de matemáticas, y los matemáticos que temen un hecho experimental. "Todo el mundo está seguro de esto [que los errores se distribuyen normalmente], el Sr. Lippman me dijo un día, ya que los experimentadores creen que es un teorema matemático, y los matemáticos que es un hecho determinado experimentalmente". de Calcul des probabilités (2ª ed., 1912), pág. 171
Dilip Sarwate
1
Aquí hay una respuesta matemática. Si tenemos una matriz de datos de variables independientes X y una matriz de columna Y, entonces si hay una matriz b con la propiedad Xb = Y, tenemos una solución. Por lo general, no podemos y queremos que el b sea "más cercano" a una solución exacta. Como matemáticas, esto es "fácil" de resolver. Es la proyección de Y en el espacio de la columna de X. Las nociones de proyección y perpendicular, etc., dependen de la métrica. La métrica Euclidiana L2 habitual es a lo que estamos acostumbrados y da los mínimos cuadrados. La propiedad minimizadora de mse es una reafirmación del hecho de que tenemos la proyección.
aginensky
1
Pensé que el desacuerdo prioritario era entre Gauss y Legendre, con Legendre precediendo a Gauss en la publicación, pero Gauss precediendo a Legendre en la correspondencia informal. También estoy (vagamente) consciente de que la prueba de Laplace se considera superior. ¿Alguna referencia sobre estos?
PatrickT
31

Como explicación alternativa, considere la siguiente intuición:

Al minimizar un error, debemos decidir cómo penalizar estos errores. De hecho, el enfoque más directo para penalizar errores sería utilizar una linearly proportionalfunción de penalización. Con tal función, a cada desviación de la media se le asigna un error proporcional correspondiente. Por lo tanto, el doble de la media daría como resultado el doble de penalización.

El enfoque más común es considerar una squared proportionalrelación entre las desviaciones de la media y la penalización correspondiente. Esto asegurará que cuanto más lejos esté de la media, proporcionalmente más será penalizado. Usando esta función de penalización, los valores atípicos (lejos de la media) se consideran proporcionalmente más informativos que las observaciones cercanas a la media.

Para dar una visualización de esto, simplemente puede trazar las funciones de penalización:

Comparación de las funciones de penalización MAD y MSE

Ahora, especialmente cuando se considera la estimación de regresiones (p. Ej., OLS), las diferentes funciones de penalización producirán resultados diferentes. Usando la linearly proportionalfunción de penalización, la regresión asignará menos peso a los valores atípicos que cuando se utiliza la squared proportionalfunción de penalización. Por lo tanto, se sabe que la Desviación absoluta media (MAD) es un estimador más robusto . En general, por lo tanto, un estimador robusto se ajusta bien a la mayoría de los puntos de datos pero 'ignora' los valores atípicos. Un ajuste de mínimos cuadrados, en comparación, se atrae más hacia los valores atípicos. Aquí hay una visualización para comparar:

Comparación de OLS versus un estimador robusto

Ahora, aunque OLS es más o menos el estándar, ciertamente también se utilizan diferentes funciones de penalización. Como ejemplo, puede echar un vistazo a la función de ajuste robusto de Matlab que le permite elegir una función de penalización diferente (también llamada 'peso') para su regresión. Las funciones de penalización incluyen andrews, bisquare, cauchy, fair, huber, logistic, ols, talwar y welsch. Sus expresiones correspondientes también se pueden encontrar en el sitio web.

Espero que eso te ayude a tener un poco más de intuición para las funciones de penalización :)

Actualizar

Si tiene Matlab, puedo recomendarle jugar con el diseño robusto de Matlab , que fue creado específicamente para la comparación de mínimos cuadrados ordinarios con regresión robusta:

robusto

La demostración le permite arrastrar puntos individuales e inmediatamente ver el impacto tanto en los mínimos cuadrados ordinarios como en la regresión robusta (¡lo cual es perfecto para propósitos de enseñanza!).

Juan Pablo
fuente
3

Como ha explicado otra respuesta, minimizar el error al cuadrado no es lo mismo que minimizar el error absoluto.

La razón por la que se prefiere minimizar el error al cuadrado es porque evita mejor los errores grandes.

Digamos que el departamento de nómina de su empleador paga accidentalmente a cada uno de un total de diez empleados $ 50 menos de lo requerido. Eso es un error absoluto de $ 500. También es un error absoluto de $ 500 si el departamento paga solo a un empleado $ 500 menos. Pero en términos de error al cuadrado, es 25000 versus 250000.

No siempre es mejor usar el error al cuadrado. Si tiene un conjunto de datos con un valor atípico extremo debido a un error de adquisición de datos, minimizar el error al cuadrado hará que el ajuste hacia el valor atípico extremo sea mucho más que minimizar el error absoluto. Dicho esto, es generalmente mejor usar el error al cuadrado.

Atsby
fuente
44
La razón por la que se prefiere minimizar el error al cuadrado es porque evita mejor los errores grandes. - Entonces, ¿por qué no en cubos?
Daniel Earwicker
@DanielEarwicker Cubed comete errores en la dirección incorrecta sustractiva. Por lo tanto, tendría que ser un error absoluto en cubos o ceñirse a los poderes pares. No hay una razón realmente "buena" para usar el cuadrado en lugar de poderes superiores (o, de hecho, funciones de penalización no polinomiales). Es fácil de calcular, fácil de minimizar y hace el trabajo.
Atsby
1
¡Por supuesto que debería haber dicho un poder incluso mayor! :)
Daniel Earwicker
Esto no tiene votos positivos (por el momento), pero ¿no es esto lo mismo que la respuesta de que (actualmente) tiene 15 votos (es decir, los valores atípicos tienen más efecto)? ¿No está obteniendo votos porque está mal o porque falta información clave? ¿O porque no tiene gráficos bonitos? ;-)
Darren Cook
@DarrenCook Sospecho que el enfoque "moderno" de las estadísticas prefiere MAD en lugar de OLS, y sugerir que el error al cuadrado es "generalmente" mejor me valió algunos votos negativos.
Atsby
3

En teoría, podría usar cualquier tipo de función de pérdida. Las funciones de pérdida absoluta y cuadrada resultan ser las funciones de pérdida más populares e intuitivas. De acuerdo con esta entrada de Wikipedia ,

Un ejemplo común implica estimar la "ubicación". Bajo supuestos estadísticos típicos, la media o el promedio es la estadística para estimar la ubicación que minimiza la pérdida esperada experimentada bajo la función de pérdida de error al cuadrado, mientras que la mediana es el estimador que minimiza la pérdida esperada experimentada bajo la función de pérdida de diferencia absoluta. Aún estimadores diferentes serían óptimos en otras circunstancias menos comunes.

Como también se explica en la entrada de wikipedia, la elección de las funciones de pérdida depende de cómo valora las desviaciones de su objeto objetivo. Si todas las desviaciones son igualmente malas para usted, sin importar su signo, entonces podría usar la función de pérdida absoluta. Si las desviaciones empeoran para usted cuanto más lejos esté de lo óptimo y no le importe si la desviación es positiva o negativa, entonces la función de pérdida al cuadrado es su opción más fácil. Pero si ninguna de las definiciones de pérdida anteriores se ajustan a su problema en cuestión, porque, por ejemplo, las pequeñas desviaciones son peores para usted que las grandes, entonces puede elegir una función de pérdida diferente e intentar resolver el problema de minimización. Sin embargo, las propiedades estadísticas de su solución pueden ser difíciles de evaluar.

kristjan
fuente
Un pequeño detalle: "Si todas las desviaciones son igualmente malas para usted, sin importar su signo ...": la función MAD penaliza los errores de forma lineal y proporcional. Por lo tanto, los errores no son "igualmente malos" sino "proporcionalmente malos", ya que dos veces el error obtiene el doble de la penalización.
Jean-Paul
@ Jean-Paul: Tienes razón. Lo dije de esa manera. Lo que quería decir con "igualmente malo" era que el gradiente del MAD es constante mientras que el gradiente del MSE crece linealmente con el error. Por lo tanto, si la diferencia entre dos errores es constante, no importa cuán lejos esté del óptimo, mientras que lo mismo no es cierto para el MSE. Espero que eso haga que sea un poco más comprensible lo que quiero decir.
kristjan
-1

Respuestas cortas

  1. no
  2. la media tiene propiedades estadísticas más interesantes que la mediana
ℕʘʘḆḽḘ
fuente
10
Sería genial si pudiera calificar "propiedades estadísticas más interesantes".
Momo