Random Forest no puede sobreajustar?

El bosque aleatorio puede sobreajustar. Estoy seguro de ello. Lo que generalmente se entiende es que el modelo no se sobreajustaría si usa más árboles.

Intente, por ejemplo, estimar el modelo con un bosque aleatorio. Obtendrá un error de entrenamiento casi nulo pero un error de predicción erróneo $y = log(x) + \epsilon$

Donbeo
fuente

Random Forest principalmente reduce la varianza, ¿cómo puede sobreajustar? @Donbeo podría ser porque los modelos de árbol de decisión no funcionan bien en la extrapolación. Digamos, para una variable predictora anómala, DT podría dar una mala predicción.

Itachi

Una clara indicación de sobreajuste es que la varianza residual se reduce demasiado. Entonces, ¿qué estás tratando de implicar con tu primer comentario?

whuber

En el equilibrio de sesgo-varianza, cuando intentamos reducir el sesgo, compensamos la varianza. Tal que, si x = 80 da y = 100, pero x = 81 da y = -100. Esto sería demasiado ajustado . No es demasiado similar a tener una gran varianza. @whuber supuse que el sobreajuste se debe solo a una gran variación. No entiendo cómo reducir la varianza residual da como resultado un sobreajuste. ¿Puedes por favor compartir algún papel para que lo lea?

Itachi

¡Esto no requiere ningún papel! Puedes probarlo tú mismo. Tome un pequeño conjunto de datos bivariado simple, como y cualquier colección de correspondiente que producir. Usando mínimos cuadrados (porque esto tiene como objetivo reducir la varianza de los residuos), ajuste la serie de modelos para . Cada paso reducirá la varianza hasta que en el último paso la varianza sea cero. En algún momento, casi cualquiera estará de acuerdo, los modelos han comenzado a sobreajustar los datos.

x_{i} = 1, 2, \dots, 10

$x_i=1,2,\ldots,10$

y_{i}

$y_i$

y = β_{0} + β_{1} x + β_{2} x^{2} + \dots + β_{k} x^{k}

$y=\beta_0+\beta_1 x+\beta_2 x^2 + \cdots + \beta_k x^k$

k = 0, 1, \dots, 9

$k=0, 1, \ldots, 9$

whuber

@whuber Creo que te estás perdiendo el punto sobre qué es la "reducción de varianza". El bosque aleatorio (y el embolsado en general) no reducen la varianza de los residuos, sino la varianza de sus predicciones. Entonces, en su ejemplo, cada paso que habla sobre AUMENTA la varianza :)

Davide ND

Random Forest no puede sobreajustar?

Respuestas: