Breiman dice que los árboles se cultivan sin podar. ¿Por qué? Quiero decir que debe haber una razón sólida por la cual los árboles en un bosque aleatorio no se poden. Por otro lado, se considera muy importante podar un solo árbol de decisión para evitar un ajuste excesivo. ¿Hay alguna literatura disponible para leer por este motivo? Por supuesto, los árboles pueden no estar correlacionados, pero aún existe la posibilidad de un ajuste excesivo.
machine-learning
Z Khan
fuente
fuente
Respuestas:
Hablando en términos generales, algunas de las posibles sobreajustes que podrían ocurrir en un solo árbol (que es una razón por la que generalmente se poda) se mitigan por dos cosas en un Bosque aleatorio:
Editar: según el comentario de OP a continuación:
Definitivamente todavía hay potencial para un ajuste excesivo. En cuanto a los artículos, puede leer sobre la motivación para "embolsar" por Breiman y "bootstrapping" en general por Efron y Tibshirani. En cuanto a 2., Brieman obtuvo un límite suelto en el error de generalización que está relacionado con la fuerza del árbol y la anti-correlación de los clasificadores individuales. Nadie usa el límite (lo más probable), pero tiene la intención de dar una intuición sobre lo que ayuda a un bajo error de generalización en los métodos de conjunto. Esto se encuentra en el documento de Random Forests. Mi publicación fue empujarlo en la dirección correcta según estas lecturas y mi experiencia / deducciones.
fuente