En regresión lineal, estás ajustando:
y=f(β,X)=β0+β1x1+β2x2+…
Encajas β datos de entrenamiento dados (X,Y)
Supongamos que sueltas el β0 y ajustar el modelo, aparecerá el error en el ajuste:
∑i(yi−f(β,Xi))2
ser más grande que si lo incluyeras? En todos los casos (no degenerados) puede probar que el error será el mismo o menor (en los datos de entrenamiento) cuando incluyaβ0dado que el modelo es libre de usar este parámetro para reducir el error si está presente y ayuda, y lo establecerá en cero si no ayuda. Además, suponga que agregó una constante grande a y (suponga que su salida debe ser+10000 que en sus datos de entrenamiento originales), y vuelva a instalar el modelo, luego β0 claramente se vuelve muy importante.
Quizás te refieres a los modelos regularizados cuando dices "suprimido". Los métodos L1 y L2 regularizados prefieren mantener los coeficientes cerca de cero (y ya debería haber normalizado la media y la varianzaXde antemano para que este paso sea sensato. En la regularización, tiene la opción de incluir el término de intercepción (si preferimos también tener un pequeñoβ0?) Nuevamente, en la mayoría de los casos (¿todos los casos?), Es mejor no regularizarβ0, ya que es poco probable que reduzca el sobreajuste y reduzca el espacio de las funciones representables (al excluir aquellas con funciones altas β0) que conduce a un mayor error.
Nota al margen: la regresión logística de scikit regulariza la intercepción por defecto. Alguien sabe por qué: http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html ? No creo que sea una buena idea .