¿Puedo combinar muchos árboles impulsores de gradiente usando la técnica de ensacado

Basado en Gradient Boosting Tree vs Random Forest . GBDT y RF utilizando diferentes estrategias para abordar el sesgo y la varianza.

Mi pregunta es: ¿puedo volver a muestrear el conjunto de datos (con reemplazo) para entrenar múltiples GBDT y combinar sus predicciones como resultado final?

Es equivalente a construir un bosque aleatorio usando GBDT como aprendiz base

La idea es que, GBDT puede sobreajustar el conjunto de datos (similar al árbol de decisión de crecimiento completo, bajo sesgo y alta varianza). Espero que el uso de la técnica de embolsado también pueda reducir este problema y deseo obtener un mejor rendimiento.

¿Cualquier sugerencia?

random-forest cart boosting bagging gradient MC LIN
fuente

Claro que puedes, pero sospecharía que lo harías mejor por el mismo esfuerzo simplemente corriendo con una tasa de aprendizaje más pequeña.

Matthew Drury

Respuestas:

Sí tu puedes. El ensacado como técnica no se basa en una sola clasificación o árbol de regresión que sea el aprendiz base; puede hacerlo con cualquier cosa, aunque muchos aprendices básicos (p. ej., regresión lineal) tienen menos valor que otros. El artículo de agregación de bootstrap en Wikipedia contiene un ejemplo de embolsado de MENOS suavizadores en los datos de ozono.

Sin embargo, si lo hiciera, seguramente no querría usar los mismos parámetros que un GBM único totalmente sintonizado. Una gran parte del punto de ajuste de un GBM es evitar el sobreajuste; el ensacado reduce el sobreajuste a través de un mecanismo diferente, por lo que si su GBM sintonizado no se sobreajusta demasiado, probablemente tampoco ayude mucho, y, dado que es probable que necesite cientos de árboles para empacar efectivamente, su tiempo de ejecución aumentará un factor de varios cientos también. Entonces, ahora tiene dos problemas: cómo ajustar su GBM dado que está incrustado en un bosque aleatorio (aunque probablemente no sea tan importante hacerlo bien, dado que está incrustado en un bosque aleatorio) y el problema del tiempo de ejecución.

Habiendo escrito todo eso, es cierto que el pensamiento de tipo embolsado puede integrarse de manera rentable con GBM, aunque de una manera diferente. H20, por ejemplo, proporciona la opción de desarrollar cada árbol de la secuencia de árbol GBM en una muestra aleatoria de los datos de entrenamiento. Esta muestra se realiza sin reemplazo, ya que se cree que el muestreo con reemplazo causa que el árbol resultante sobreajuste las partes de la muestra que se repitieron. Este enfoque fue explícitamente motivado por el procedimiento de "embolsado adaptativo" de Breiman; para más detalles , ver el documento Stochastic Gradient Boosting 1999 de Friedman .

jbowman
fuente