Estoy tratando de predecir una variable de respuesta en regresión lineal que siempre debe ser positiva (costo por clic). Es una cantidad monetaria. En AdWords, usted paga a Google por los clics en sus anuncios, y un número negativo significaría que Google le paga cuando la gente hace clic: P
Los predictores son todos valores continuos. El Rsquared y el RMSE son decentes en comparación con otros modelos, incluso fuera de muestra:
RMSE Rsquared
1.4141477 0.8207303
No puedo reescalar las predicciones, porque es dinero, por lo que incluso un pequeño factor de reescalado podría cambiar los costos significativamente.
Por lo que entiendo, para el modelo de regresión no hay nada especial en los números cero y negativos, por lo que encuentra el mejor hiperplano de regresión sin importar si la salida es parcialmente negativa.
Este es un primer intento, usando todas las variables que tengo. Entonces hay espacio para el refinamiento.
¿Hay alguna forma de decirle al modelo que la salida no puede ser negativa?
fuente
Respuestas:
Supongo que está utilizando el estimador OLS en este modelo de regresión lineal. Puede usar el estimador de mínimos cuadrados con restricciones de desigualdad , que será la solución a un problema de minimización bajo restricciones de desigualdad. Usando la notación matricial estándar (los vectores son vectores de columna), el problema de minimización se establece como
... donde es , es , es y es la matriz que contiene la serie de regresores fuera de muestra de longitud que se utilizan para la predicción. Tenemos restricciones de desigualdad lineal (y la función objetivo es convexa, por lo que las condiciones de primer orden son suficientes para un mínimo).y n×1 X n×k β k×1 Z m×k m m
El lagrangeano de este problema es
donde es un vector de columna de multiplicadores Karush -Kuhn -Tucker no negativos. Las condiciones de primer orden son (es posible que desee revisar las reglas para la diferenciación de matrices y vectores)λ m×1
... donde , por conveniencia, y es el estimador que obtendríamos de la estimación de mínimos cuadrados ordinarios.ξ=12λ β^OLS
El método está completamente elaborado en Liew (1976) .
fuente