¿En qué condiciones las máquinas de aumento de gradiente superan a los bosques aleatorios?

16

¿Puede la máquina de aumento de gradiente de Friedman lograr un mejor rendimiento que el Bosque aleatorio de Breiman ? Si es así, ¿en qué condiciones o qué tipo de conjunto de datos puede mejorar gbm?

user22062
fuente
66
No hay forma de decir a priori; Tienes que probarlo.
bayerj
bueno, en la práctica, Boosting casi siempre supera a RF ... Aunque realmente no sé exactamente por qué, personalmente no he encontrado ninguna instancia en la que RF haya superado a Boosting.
Antoine
El aprendizaje de @Antoine con datos no etiquetados y / o ruido de etiquetas es un caso de uso particularmente terrible para impulsar.
Marc Claesen
Bueno, RF y Boosting se usan principalmente para tareas de aprendizaje supervisadas, incluso si a veces es cierto que RF se puede usar para la agrupación. Adaboost no es muy robusto para el etiquetado incorrecto debido a la función de pérdida exponencial que está altamente influenciada por el ruido, pero el refuerzo de gradiente estocástico en el caso general (con desviación multinomial, por ejemplo) es más robusto.
Antoine
@MarcClaesen ¿podría echar un vistazo a esta pregunta por favor?
Antoine

Respuestas:

9

Lo siguiente proporciona una explicación de por qué Boosting generalmente supera a Random Forest en la práctica, pero estaría muy interesado en saber qué otros factores diferentes pueden explicar la ventaja de Boosting sobre RF en entornos específicos.

error=bias+variance

Por otro lado, Boosting reduce el sesgo (al agregar cada árbol nuevo en la secuencia para capturar lo que se perdió el árbol anterior), pero también la varianza (al combinar muchos modelos).

Entonces, Boosting reduce el error en ambos frentes, mientras que RF solo puede reducir el error a través de la reducción de la varianza. Por supuesto, como dije, podría haber otras explicaciones para el mejor desempeño de Boosting observado en la práctica. Por ejemplo, en la página 591 del libro mencionado, se dice que Boosting supera a RF en el problema de la esfera anidada porque en ese caso particular el límite de decisión real es aditivo . (?) También informan que Boosting funciona mejor que RF para el correo no deseado y los datos de vivienda de California.

Otra referencia que encontró que Boosting supera a RF es Caruana y Niculescu-Mizil 2006 . Desafortunadamente, informan los resultados pero no intentan explicar qué los causa. Compararon los dos clasificadores (y muchos más) en 11 problemas de clasificación binaria para 8 métricas de rendimiento diferentes.

Antoine
fuente
7

Como lo dijo bayerj, ¡no hay forma de saber a priori!

Los bosques aleatorios son relativamente fáciles de calibrar: los parámetros predeterminados de la mayoría de las implementaciones (R o Python, por ejemplo) logran excelentes resultados.

Por otro lado, los GBM son difíciles de ajustar (un número demasiado grande de árboles conduce al sobreajuste, la profundidad máxima es crítica, la tasa de aprendizaje y el número de árboles actúan juntos ...) y más largos para entrenar (las implementaciones multiproceso son escasas) . Una sintonización suelta puede llevar a un bajo rendimiento.

Sin embargo, según mi experiencia, si pasa suficiente tiempo en GBM, es probable que logre un mejor rendimiento que el bosque aleatorio.

metro

RUser4512
fuente
1
A loosely performed tuning may lead to dramatic performance?¡Cuidado con la mala interpretación, porque en inglés dramaticsignifica muy bueno, excepcional, fenomenal, etc.! Supongo que eso es lo contrario de lo que querías decir ... Además, ¿tienes alguna explicación sobre por qué los GBM ajustados cuidadosamente superan a la RF? Esta es básicamente la pregunta ...
Antoine