¿Se debe evitar la poda para el ensacado (con árboles de decisión)?

8

Llegué a varias publicaciones y documentos alegando que no se necesita podar árboles en un conjunto de árboles "embolsados" (ver 1 ).

Sin embargo, ¿es necesariamente (o al menos en algunos casos conocidos) perjudicial realizar la poda (digamos, con la muestra OOB) en los árboles individuales en un conjunto?

¡Gracias!

Tal Galili
fuente

Respuestas:

6

Tal

En términos generales, la poda perjudicará el rendimiento de los árboles en bolsas.

Tress son clasificadores inestables; lo que significa que si perturba un poco los datos, el árbol podría cambiar significativamente. Son modelos de bajo sesgo pero de alta varianza. El ensacado generalmente funciona al "replicar" el modelo para reducir la variación (el viejo truco "aumentar el tamaño de la muestra").

Sin embargo, si termina promediando modelos que son muy similares, entonces no gana mucho. Si los árboles no se podan, tienden a ser más diferentes entre sí que si se podaran. Esto tiene el efecto de "decorelacionar" los árboles para que esté promediando árboles que no son demasiado similares. Esta es también la razón por la que los bosques aleatorios agregan el ajuste adicional de la selección de predictores aleatorios. Eso obliga a los árboles a ser muy diferentes.

El uso de árboles no podados aumentará el riesgo de sobreajuste, pero el modelo promedia más que compensar esto (en términos generales).

HTH

Max

topepo
fuente
Gracias Max, tu respuesta es útil y perspicaz. Tuyo, Tal
Tal Galili