Mientras aprendía sobre el Gradient Boosting, no escuché ninguna restricción con respecto a las propiedades de un "clasificador débil" que el método usa para construir y ensamblar modelos. Sin embargo, no podía imaginar una aplicación de un GB que utilizara la regresión lineal y, de hecho, cuando realicé algunas pruebas, no funciona. Estaba probando el enfoque más estándar con un gradiente de suma de residuos al cuadrado y sumando los modelos posteriores.
El problema obvio es que los residuos del primer modelo se rellenan de tal manera que ya no hay una línea de regresión que se ajuste. Mi otra observación es que una suma de modelos de regresión lineal posteriores también se puede representar como un modelo de regresión único (agregando todas las intersecciones y los coeficientes correspondientes), por lo que no puedo imaginar cómo eso podría mejorar el modelo. La última observación es que una regresión lineal (el enfoque más típico) está usando la suma de los residuos cuadrados como una función de pérdida, la misma que usa GB.
También pensé en reducir la tasa de aprendizaje o usar solo un subconjunto de predictores para cada iteración, pero eso podría resumirse en un solo modelo de representación eventualmente, por lo que supongo que no traería ninguna mejora.
¿Que me estoy perdiendo aqui? ¿Es la regresión lineal de alguna manera inapropiada para usar con el Gradient Boosting? ¿Es porque la regresión lineal usa la suma de los residuos al cuadrado como una función de pérdida? ¿Hay alguna restricción particular en los predictores débiles para que puedan aplicarse al refuerzo de degradado?
Respuestas:
No creo que en realidad estás perdiendo nada!
Me parece que se clavó justo allí, y dio un breve esbozo de una prueba de que la regresión lineal solo supera a impulsar regresiones lineales en este entorno.
Para ser pedante, los dos métodos están intentando resolver el siguiente problema de optimización
La regresión lineal simplemente observa que se puede resolver directamente, mediante la búsqueda de la solución a la ecuación lineal
Esto le da automáticamente el mejor valor posible de de entre todas las posibilidades.β
Cada uno de estos pasos se elige para disminuir aún más la suma de los errores al cuadrado. Pero podríamos haber encontrado la suma mínima posible de errores cuadrados dentro de esta forma funcional simplemente realizando una regresión lineal completa para empezar.
Una posible defensa del impulso en esta situación podría ser la regularización implícita que proporciona. Posiblemente (no he jugado con esto) podría usar la función de detención temprana de un refuerzo de gradiente, junto con una validación cruzada, para evitar la regresión lineal completa. Esto proporcionaría una regularización a su regresión y posiblemente ayudaría con el sobreajuste. Esto no es particularmente práctico, ya que uno tiene opciones muy eficientes y bien entendidas como la regresión de crestas y la red elástica en esta configuración.
El impulso brilla cuando no hay una forma funcional concisa alrededor. Impulsar los árboles de decisión permite que la forma funcional del regresor / clasificador evolucione lentamente para adaptarse a los datos, lo que a menudo da como resultado formas complejas que uno no podría haber soñado a mano y ojo. Cuando se desea una forma funcional simple , impulsar no lo ayudará a encontrarla (o al menos es probablemente una forma bastante ineficiente de encontrarla).
fuente
La matriz de proyección de mínimos cuadrados está dada por
Digamos que usted ajusta una regresión y luego calcula sus residuos
Esto significa que el enfoque simple de ajustar una regresión y luego ajustar una nueva regresión en los residuos de la primera regresión no resultará en nada sensato porque X no está completamente correlacionado con e.
Escribo esto porque dijiste que en realidad no hay una nueva línea que se ajuste que corresponda a las derivaciones anteriores.
fuente