Aumento de gradiente para regresión lineal: ¿por qué no funciona?

35

Mientras aprendía sobre el Gradient Boosting, no escuché ninguna restricción con respecto a las propiedades de un "clasificador débil" que el método usa para construir y ensamblar modelos. Sin embargo, no podía imaginar una aplicación de un GB que utilizara la regresión lineal y, de hecho, cuando realicé algunas pruebas, no funciona. Estaba probando el enfoque más estándar con un gradiente de suma de residuos al cuadrado y sumando los modelos posteriores.

El problema obvio es que los residuos del primer modelo se rellenan de tal manera que ya no hay una línea de regresión que se ajuste. Mi otra observación es que una suma de modelos de regresión lineal posteriores también se puede representar como un modelo de regresión único (agregando todas las intersecciones y los coeficientes correspondientes), por lo que no puedo imaginar cómo eso podría mejorar el modelo. La última observación es que una regresión lineal (el enfoque más típico) está usando la suma de los residuos cuadrados como una función de pérdida, la misma que usa GB.

También pensé en reducir la tasa de aprendizaje o usar solo un subconjunto de predictores para cada iteración, pero eso podría resumirse en un solo modelo de representación eventualmente, por lo que supongo que no traería ninguna mejora.

¿Que me estoy perdiendo aqui? ¿Es la regresión lineal de alguna manera inapropiada para usar con el Gradient Boosting? ¿Es porque la regresión lineal usa la suma de los residuos al cuadrado como una función de pérdida? ¿Hay alguna restricción particular en los predictores débiles para que puedan aplicarse al refuerzo de degradado?

Matek
fuente
Intuitivamente, tiendo a pensar que no deberías usar clasificadores porque la suma de ellos es el mismo tipo de clasificador. Por ejemplo, la suma de funciones lineales es una función lineal.
user18764
Sé que esto es antiguo, pero entiendo que el paso de impulso minimiza la función de pérdida entre los residuos actuales y el alumno base (que en su caso es un retroceso lineal) multiplicado por la tasa de aprendizaje. Entonces, si bien el alumno base minimiza la mse, ¿la función de pérdida utilizada por el refuerzo podría ser el mismo MAPE?
David Waterworth

Respuestas:

35

¿Que me estoy perdiendo aqui?

No creo que en realidad estás perdiendo nada!

Otra observación es que una suma de modelos de regresión lineal posteriores puede ser representado como un único modelo de regresión, así (la adición de todos los intercepta y los correspondientes coeficientes) así que no puedo imaginar cómo que jamás podrían mejorar el modelo. La última observación es que una regresión lineal (el enfoque más típico) está usando la suma de los residuos cuadrados como una función de pérdida, la misma que usa GB.

Me parece que se clavó justo allí, y dio un breve esbozo de una prueba de que la regresión lineal solo supera a impulsar regresiones lineales en este entorno.

Para ser pedante, los dos métodos están intentando resolver el siguiente problema de optimización

β^=argminβ(yXβ)t(yXβ)

La regresión lineal simplemente observa que se puede resolver directamente, mediante la búsqueda de la solución a la ecuación lineal

XtXβ=Xty

Esto le da automáticamente el mejor valor posible de de entre todas las posibilidades.β

β1,β2,

Xβ1+Xβ2++Xβn=X(β1+β2++βn)

Cada uno de estos pasos se elige para disminuir aún más la suma de los errores al cuadrado. Pero podríamos haber encontrado la suma mínima posible de errores cuadrados dentro de esta forma funcional simplemente realizando una regresión lineal completa para empezar.

Una posible defensa del impulso en esta situación podría ser la regularización implícita que proporciona. Posiblemente (no he jugado con esto) podría usar la función de detención temprana de un refuerzo de gradiente, junto con una validación cruzada, para evitar la regresión lineal completa. Esto proporcionaría una regularización a su regresión y posiblemente ayudaría con el sobreajuste. Esto no es particularmente práctico, ya que uno tiene opciones muy eficientes y bien entendidas como la regresión de crestas y la red elástica en esta configuración.

El impulso brilla cuando no hay una forma funcional concisa alrededor. Impulsar los árboles de decisión permite que la forma funcional del regresor / clasificador evolucione lentamente para adaptarse a los datos, lo que a menudo da como resultado formas complejas que uno no podría haber soñado a mano y ojo. Cuando se desea una forma funcional simple , impulsar no lo ayudará a encontrarla (o al menos es probablemente una forma bastante ineficiente de encontrarla).

Matthew Drury
fuente
2
β
Esa es una respuesta muy buena y clara. Gracias por la confirmación / explicación Matthew!
Matek
"El impulso brilla cuando no hay una forma funcional concisa". Esta es la respuesta que estoy buscando. Entonces, solo quiero confirmar, ¿quiere decir que la respuesta de mi pregunta es sí, pero nadie usa el modelo lineal como aprendiz base ?, stats.stackexchange.com/questions/231286/…
Haitao Du
5

La matriz de proyección de mínimos cuadrados está dada por

X(XTX)1XT

y^

y^=X(XTX)1XTy

Digamos que usted ajusta una regresión y luego calcula sus residuos

e=yy^=yX(XTX)1XTy

y^2

y^2=X(XTX)1XTe=X(XTX)1XT(yX(XTX)1XTy)=X(XTX)1XTyX(XTX)1XTX(XTX)1XTy=X(XTX)1XTyX(XTX)1XTy=0

y^

Esto significa que el enfoque simple de ajustar una regresión y luego ajustar una nueva regresión en los residuos de la primera regresión no resultará en nada sensato porque X no está completamente correlacionado con e.

Escribo esto porque dijiste que en realidad no hay una nueva línea que se ajuste que corresponda a las derivaciones anteriores.

kirtap
fuente