¿Cómo diseñar e implementar una función de pérdida asimétrica para la regresión?

24

Problema

En la regresión, generalmente se calcula el error cuadrado medio (MSE) para una muestra:

MSE=1norteyo=1norte(sol(Xyo)-sol^(Xyo))2
para medir la calidad de un predictor.

En este momento estoy trabajando en un problema de regresión en el que el objetivo es predecir el precio que los clientes están dispuestos a pagar por un producto dada una serie de características numéricas. Si el precio previsto es demasiado alto, ningún cliente comprará el producto, pero la pérdida monetaria es baja porque el precio simplemente puede disminuirse. Por supuesto, no debe ser demasiado alto, ya que es posible que el producto no se compre por mucho tiempo. Por otro lado, si el precio previsto es demasiado bajo, el producto se comprará rápidamente sin la posibilidad de ajustar el precio.

En otras palabras, el algoritmo de aprendizaje debe predecir precios ligeramente más altos que se pueden disminuir si es necesario en lugar de subestimar el precio real, lo que resultará en una pérdida monetaria inmediata.

Pregunta

¿Cómo diseñaría una métrica de error incorporando esta asimetría de costos?


Solución posible

Una forma de definir una función de pérdida asimétrica sería simplemente multiplicar por un peso: conalpha(0,1)siendo el parámetro podemos ajustar para cambiar el grado de asimetría. Lo he encontradoaqui

1norteyo=1norteEl |α-1(sol(Xyo)-sol^(Xyo))<0 0El |(sol(Xyo)-sol^(Xyo))2
α(0 0,1). Esto parece ser lo más sencillo, mientras se mantiene la pérdida cuadrática.
Kiudee
fuente
1
@MichaelChernick, FTR, creo que esta es una buena pregunta, que se ha planteado de manera clara y coherente, y reconozco que estoy siendo un poco quisquilloso. A lo que me refiero es (como sabes) ajustar una regresión (es decir, resolver ) se realiza (por defecto) minimizando la función de pérdida de OLS , SSE. Tienes razón en que MSE podría usarse de manera equivalente b / c dividiendo por una constante no afectará el orden de las betas candidatas. β
gung - Restablece a Monica
1
Otro hecho es que MSE (más a menudo RMSE) se usa a menudo para evaluar la calidad de un modelo ajustado (aunque, de nuevo, SSE podría usarse de manera equivalente). La cuestión es que esta pregunta (para mí, de todos modos) se trata de cómo pensar / rediseñar la función de pérdida , de modo que las versiones beta ajustadas son diferentes de lo que habrían sido por defecto, en lugar de cómo pensar de manera diferente sobre la calidad de un modelo que ya ha sido ajustado.
gung - Restablece a Monica
1
@Kiudee, si mi interpretación de su Q es correcta, ¿qué pensaría de editarla para agregar la etiqueta de funciones de pérdida , y posiblemente revisar el título a algo como: "Cómo diseñar e implementar una función de pérdida asimétrica para la regresión"? No haré las ediciones yo mismo en caso de que no estés de acuerdo con ellas.
gung - Restablece a Monica
2
Como referencia, he visto la regresión cuantil sugerida cuando desea funciones de pérdida asimétrica, vea Berk, 2011 , PDF aquí .
Andy W
1
Como estoy usando una variedad de algoritmos de aprendizaje para abordar este problema, la función debería ser diferenciable al menos una vez.
Kiudee

Respuestas:

7

Como se mencionó en los comentarios anteriores, la regresión cuantil utiliza una función de pérdida asimétrica (lineal pero con diferentes pendientes para errores positivos y negativos). El análogo cuadrático (pérdida cuadrática) de la regresión cuantil es la regresión esperable.

Puede buscar en Google la regresión cuantil para las referencias. Para la regresión de los proyectiles, consulte el paquete R expectreg y las referencias en el manual de referencia.

Innuo
fuente
2

Este tipo de ponderación desigual a menudo se realiza en problemas de clasificación con dos clases. La regla de Bayes se puede modificar usando una función de pérdida que pondera la pérdida más alto para un error que para el otro. Esto conducirá a una regla que produce tasas de error desiguales.

En la regresión, sin duda sería posible construir una función de ponderación, como una suma ponderada de cuadrados que otorgará cierta ponderación a los errores negativos y una ponderación mayor a los positivos. Esto sería similar al mínimo cuadrado ponderado pero un poco diferente porque los mínimos cuadrados ponderados están destinados a problemas en los que la varianza del error no es constante en el espacio de valores posibles para las variables predictoras. En ese caso, los pesos son más altos para los puntos donde se sabe que la varianza del error es pequeña y más alta donde se sabe que la varianza del error es grande. Por supuesto, esto conducirá a valores para los parámetros de regresión que son diferentes de lo que OLS le daría.

Michael R. Chernick
fuente