¿Por qué un árbol en saco / árbol forestal aleatorio tiene mayor sesgo que un árbol de decisión único?

11

Si consideramos un árbol de decisión completamente desarrollado (es decir, un árbol de decisión no podado) tiene una alta varianza y un bajo sesgo.

El ensacado y los bosques aleatorios usan estos modelos de alta varianza y los agregan para reducir la varianza y así mejorar la precisión de la predicción. Tanto los Bosques como los Bosques aleatorios usan el muestreo Bootstrap, y como se describe en "Elementos de aprendizaje estadístico", esto aumenta el sesgo en el árbol único.

Además, como el método del Bosque aleatorio limita las variables permitidas para dividirse en cada nodo, el sesgo para un solo árbol forestal aleatorio aumenta aún más.

Por lo tanto, la precisión de la predicción solo se incrementa si el aumento en el sesgo de los árboles individuales en Bagging y Random Forests no está "exagerando" la reducción de la varianza.

Esto me lleva a las dos preguntas siguientes: 1) Sé que con el muestreo bootstrap, (casi siempre) tendremos algunas de las mismas observaciones en la muestra bootstrap. Pero, ¿por qué esto conduce a un aumento en el sesgo de los árboles individuales en Bagging / Random Forests? 2) Además, ¿por qué el límite de las variables disponibles para dividir en cada división conduce a un mayor sesgo en los árboles individuales en los bosques aleatorios?

C. Refsgaard
fuente

Respuestas:

5

Aceptaré la respuesta del 1) de Kunlun, pero solo para cerrar este caso, aquí daré las conclusiones sobre las dos preguntas que llegué en mi tesis (que fueron aceptadas por mi Supervisor):

1) Más datos producen mejores modelos, y dado que solo usamos parte de todos los datos de entrenamiento para entrenar el modelo (bootstrap), se produce un mayor sesgo en cada árbol (Copia de la respuesta de Kunlun)

2) En el algoritmo de bosques aleatorios, limitamos el número de variables para dividir en cada división, es decir, limitamos el número de variables para explicar nuestros datos. Nuevamente, se produce un mayor sesgo en cada árbol.

Conclusión: Ambas situaciones son una cuestión de limitar nuestra capacidad de explicar la población: primero limitamos el número de observaciones, luego limitamos el número de variables para dividir en cada división. Ambas limitaciones conducen a un mayor sesgo en cada árbol, pero a menudo la reducción de la varianza en el modelo resalta el aumento de sesgo en cada árbol, y por lo tanto, los Bosques aleatorios y en bolsas tienden a producir un modelo mejor que un solo árbol de decisión.

C. Refsgaard
fuente
-1

Sus preguntas son bastante directas. 1) Más datos producen un mejor modelo, ya que solo usa parte de todos los datos de entrenamiento para entrenar su modelo (bootstrap), un sesgo más alto es razonable. 2) Más divisiones significa árboles más profundos o nodos más puros. Esto generalmente conduce a una alta varianza y un bajo sesgo. Si limita la división, menor varianza y mayor sesgo.

Kunlun
fuente
44
No compre bastante el argumento para 1), ya que cada muestra de bootstrap es igualmente probable, y el sesgo se refiere al comportamiento del modelo promedio. Parece que debe ser más sutil que eso. Tampoco creo que 2) aborde la pregunta formulada. El póster no significa "divisiones límite" como en "crecer árboles menos profundos".
Matthew Drury el