Random Forest no puede sobreajustar?

10

He leído algo de literatura que los bosques aleatorios no pueden sobreajustar. Si bien esto suena genial, parece demasiado bueno para ser verdad. ¿Es posible que los rf se sobreajusten?

Chillido búho
fuente
55
Si puede caber, puede sobreajustar. En términos de RF, piense en lo que sucede si su bosque no contiene suficientes árboles (digamos que su bosque es un solo árbol para hacer obvio el efecto). Hay más problemas que este, pero este es el más obvio.
Marc Claesen
Acabo de responder a otro hilo en RF que podría ajustarse fácilmente si el número de predictores es grande.
horaceT

Respuestas:

7

El bosque aleatorio puede sobreajustar. Estoy seguro de ello. Lo que generalmente se entiende es que el modelo no se sobreajustaría si usa más árboles.

Intente, por ejemplo, estimar el modelo con un bosque aleatorio. Obtendrá un error de entrenamiento casi nulo pero un error de predicción erróneoy=log(x)+ϵ

Donbeo
fuente
Random Forest principalmente reduce la varianza, ¿cómo puede sobreajustar? @Donbeo podría ser porque los modelos de árbol de decisión no funcionan bien en la extrapolación. Digamos, para una variable predictora anómala, DT podría dar una mala predicción.
Itachi
Una clara indicación de sobreajuste es que la varianza residual se reduce demasiado. Entonces, ¿qué estás tratando de implicar con tu primer comentario?
whuber
En el equilibrio de sesgo-varianza, cuando intentamos reducir el sesgo, compensamos la varianza. Tal que, si x = 80 da y = 100, pero x = 81 da y = -100. Esto sería demasiado ajustado . No es demasiado similar a tener una gran varianza. @whuber supuse que el sobreajuste se debe solo a una gran variación. No entiendo cómo reducir la varianza residual da como resultado un sobreajuste. ¿Puedes por favor compartir algún papel para que lo lea?
Itachi
2
¡Esto no requiere ningún papel! Puedes probarlo tú mismo. Tome un pequeño conjunto de datos bivariado simple, como y cualquier colección de correspondiente que producir. Usando mínimos cuadrados (porque esto tiene como objetivo reducir la varianza de los residuos), ajuste la serie de modelos para . Cada paso reducirá la varianza hasta que en el último paso la varianza sea cero. En algún momento, casi cualquiera estará de acuerdo, los modelos han comenzado a sobreajustar los datos. y i y = β 0 + β 1 x + β 2 x 2 + + β k x k k = 0 , 1 , , 9xi=1,2,,10yiy=β0+β1x+β2x2++βkxkk=0,1,,9
whuber
@whuber Creo que te estás perdiendo el punto sobre qué es la "reducción de varianza". El bosque aleatorio (y el embolsado en general) no reducen la varianza de los residuos, sino la varianza de sus predicciones. Entonces, en su ejemplo, cada paso que habla sobre AUMENTA la varianza :)
Davide ND