Cuando llevamos a cabo una regresión lineal para adaptarse a un grupo de puntos de datos ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) , el enfoque clásico minimiza el error al cuadrado. Durante mucho tiempo me ha intrigado una pregunta que minimizará el error al cuadrado producirá el mismo resultado que minimizar el error absoluto? Si no, ¿por qué es mejor minimizar el error al cuadrado? ¿Hay alguna otra razón que no sea "la función objetivo es diferenciable"?
El error cuadrado también se usa ampliamente para evaluar el rendimiento del modelo, pero el error absoluto es menos popular. ¿Por qué el error al cuadrado se usa más comúnmente que el error absoluto? Si tomar derivados no está involucrado, calcular el error absoluto es tan fácil como calcular el error al cuadrado, entonces ¿por qué el error al cuadrado es tan frecuente ? ¿Hay alguna ventaja única que pueda explicar su prevalencia?
Gracias.
fuente
Respuestas:
Minimizar los errores cuadrados (MSE) definitivamente no es lo mismo que minimizar las desviaciones absolutas (MAD) de los errores. MSE proporciona la respuesta media de condicionada por x , mientras que MAD proporciona la respuesta media de y condicionada por x .y X y X
Históricamente, Laplace consideró originalmente el error máximo observado como una medida de la corrección de un modelo. Pronto pasó a considerar MAD en su lugar. Debido a su incapacidad para resolver con exactitud ambas situaciones, pronto consideró el MSE diferencial. Él y Gauss (aparentemente al mismo tiempo) derivaron las ecuaciones normales, una solución de forma cerrada para este problema. Hoy en día, resolver el MAD es relativamente fácil mediante la programación lineal. Sin embargo, como es bien sabido, la programación lineal no tiene una solución de forma cerrada.
Desde una perspectiva de optimización, ambos corresponden a funciones convexas. Sin embargo, MSE es diferenciable, lo que permite métodos basados en gradientes, mucho más eficientes que su contraparte no diferenciable. MAD no es diferenciable en .x = 0
Una razón teórica adicional es que, en un entorno bayesiano, cuando se asumen los antecedentes uniformes de los parámetros del modelo, MSE produce errores distribuidos normales, que se han tomado como prueba de la corrección del método. A los teóricos les gusta la distribución normal porque creen que es un hecho empírico, mientras que a los experimentales les gusta porque creen que es un resultado teórico.
Una razón final de por qué MSE puede haber tenido la amplia aceptación que tiene es que se basa en la distancia euclidiana (de hecho, es una solución del problema de proyección en un espacio euclidiano de Banach) que es extremadamente intuitiva dada nuestra realidad geométrica.
fuente
Como explicación alternativa, considere la siguiente intuición:
Al minimizar un error, debemos decidir cómo penalizar estos errores. De hecho, el enfoque más directo para penalizar errores sería utilizar una
linearly proportional
función de penalización. Con tal función, a cada desviación de la media se le asigna un error proporcional correspondiente. Por lo tanto, el doble de la media daría como resultado el doble de penalización.El enfoque más común es considerar una
squared proportional
relación entre las desviaciones de la media y la penalización correspondiente. Esto asegurará que cuanto más lejos esté de la media, proporcionalmente más será penalizado. Usando esta función de penalización, los valores atípicos (lejos de la media) se consideran proporcionalmente más informativos que las observaciones cercanas a la media.Para dar una visualización de esto, simplemente puede trazar las funciones de penalización:
Ahora, especialmente cuando se considera la estimación de regresiones (p. Ej., OLS), las diferentes funciones de penalización producirán resultados diferentes. Usando la
linearly proportional
función de penalización, la regresión asignará menos peso a los valores atípicos que cuando se utiliza lasquared proportional
función de penalización. Por lo tanto, se sabe que la Desviación absoluta media (MAD) es un estimador más robusto . En general, por lo tanto, un estimador robusto se ajusta bien a la mayoría de los puntos de datos pero 'ignora' los valores atípicos. Un ajuste de mínimos cuadrados, en comparación, se atrae más hacia los valores atípicos. Aquí hay una visualización para comparar:Ahora, aunque OLS es más o menos el estándar, ciertamente también se utilizan diferentes funciones de penalización. Como ejemplo, puede echar un vistazo a la función de ajuste robusto de Matlab que le permite elegir una función de penalización diferente (también llamada 'peso') para su regresión. Las funciones de penalización incluyen andrews, bisquare, cauchy, fair, huber, logistic, ols, talwar y welsch. Sus expresiones correspondientes también se pueden encontrar en el sitio web.
Espero que eso te ayude a tener un poco más de intuición para las funciones de penalización :)
Actualizar
Si tiene Matlab, puedo recomendarle jugar con el diseño robusto de Matlab , que fue creado específicamente para la comparación de mínimos cuadrados ordinarios con regresión robusta:
La demostración le permite arrastrar puntos individuales e inmediatamente ver el impacto tanto en los mínimos cuadrados ordinarios como en la regresión robusta (¡lo cual es perfecto para propósitos de enseñanza!).
fuente
Como ha explicado otra respuesta, minimizar el error al cuadrado no es lo mismo que minimizar el error absoluto.
La razón por la que se prefiere minimizar el error al cuadrado es porque evita mejor los errores grandes.
Digamos que el departamento de nómina de su empleador paga accidentalmente a cada uno de un total de diez empleados $ 50 menos de lo requerido. Eso es un error absoluto de $ 500. También es un error absoluto de $ 500 si el departamento paga solo a un empleado $ 500 menos. Pero en términos de error al cuadrado, es 25000 versus 250000.
No siempre es mejor usar el error al cuadrado. Si tiene un conjunto de datos con un valor atípico extremo debido a un error de adquisición de datos, minimizar el error al cuadrado hará que el ajuste hacia el valor atípico extremo sea mucho más que minimizar el error absoluto. Dicho esto, es generalmente mejor usar el error al cuadrado.
fuente
En teoría, podría usar cualquier tipo de función de pérdida. Las funciones de pérdida absoluta y cuadrada resultan ser las funciones de pérdida más populares e intuitivas. De acuerdo con esta entrada de Wikipedia ,
Como también se explica en la entrada de wikipedia, la elección de las funciones de pérdida depende de cómo valora las desviaciones de su objeto objetivo. Si todas las desviaciones son igualmente malas para usted, sin importar su signo, entonces podría usar la función de pérdida absoluta. Si las desviaciones empeoran para usted cuanto más lejos esté de lo óptimo y no le importe si la desviación es positiva o negativa, entonces la función de pérdida al cuadrado es su opción más fácil. Pero si ninguna de las definiciones de pérdida anteriores se ajustan a su problema en cuestión, porque, por ejemplo, las pequeñas desviaciones son peores para usted que las grandes, entonces puede elegir una función de pérdida diferente e intentar resolver el problema de minimización. Sin embargo, las propiedades estadísticas de su solución pueden ser difíciles de evaluar.
fuente
Respuestas cortas
fuente