¿Por qué Adaboost con árboles de decisión?

10

He estado leyendo un poco sobre algoritmos de refuerzo para tareas de clasificación y Adaboost en particular. Entiendo que el propósito de Adaboost es llevar a varios "estudiantes débiles" y, a través de un conjunto de iteraciones sobre los datos de entrenamiento, empujar a los clasificadores para aprender a predecir las clases en las que los modelos cometen errores repetidamente. Sin embargo, me preguntaba por qué tantas de las lecturas que he hecho han utilizado árboles de decisión como clasificador débil. ¿Hay alguna razón en particular para esto? ¿Hay ciertos clasificadores que sean candidatos particularmente buenos o malos para Adaboost?

kylerthecreator
fuente
El alumno más simple que puede usar es el árbol de decisión con profundidad = 1. Quizás es por eso que todos lo usan en sus ejemplos.
Aaron

Respuestas:

17

Hablé sobre esto en una respuesta a una pregunta SO relacionada . Los árboles de decisión generalmente son muy adecuados para impulsar, mucho más que otros algoritmos. La versión de resumen / viñeta es esta:

  1. Los árboles de decisión no son lineales. Impulsar con modelos lineales simplemente no funciona bien.
  2. El alumno débil necesita ser consistentemente mejor que adivinar al azar. Normalmente no es necesario hacer ningún ajuste de parámetros a un árbol de decisión para obtener ese comportamiento. El entrenamiento de un SVM realmente necesita una búsqueda de parámetros. Como los datos se vuelven a ponderar en cada iteración, es probable que deba realizar otra búsqueda de parámetros en cada iteración. Por lo tanto, está aumentando la cantidad de trabajo que tiene que hacer por un amplio margen.
  3. Los árboles de decisión son razonablemente rápidos para entrenar. Como vamos a construir cientos o miles de ellos, esa es una buena propiedad. También son rápidos de clasificar, lo que de nuevo es importante cuando necesita ejecutar 100s o 1000s antes de poder emitir su decisión.
  4. Al cambiar la profundidad, tiene un control simple y fácil sobre la compensación de sesgo / varianza, sabiendo que el aumento puede reducir el sesgo, pero también reduce significativamente la varianza. Se sabe que el refuerzo sobreajusta, por lo que el nob fácil de ajustar es útil en ese sentido.
Raff.Edward
fuente
1

No tengo una respuesta de libro de texto. Sin embargo, aquí hay algunos pensamientos.

El refuerzo se puede ver en comparación directa con el embolsado. Estos son dos enfoques diferentes del dilema de compensación de la variación de sesgo. Mientras que el embolsado tiene como alumnos débiles, algunos alumnos con bajo sesgo y alta varianza, al promediar el conjunto de embolsado, disminuyen la varianza para un pequeño sesgo. Impulsar, por otro lado, funciona bien con diferentes estudiantes débiles. Los estudiantes débiles estimulantes tienen un alto sesgo y una baja varianza. Al construir un alumno en la parte superior de otro, el conjunto de refuerzo intenta disminuir el sesgo, para una pequeña variación.

Como consecuencia, si considera, por ejemplo, utilizar el embolsado y el refuerzo con árboles como estudiantes débiles, la mejor manera de utilizarlo es con árboles pequeños / cortos con árboles estimulantes y muy detallados con embolsado. Es por eso que muy a menudo un procedimiento de refuerzo utiliza un tocón de decisión como aprendiz débil, que es el árbol más corto posible (una sola condición si en una sola dimensión). Este tocón de decisión es muy estable, por lo que tiene una varianza muy baja.

No veo ninguna razón para usar árboles con procedimientos de refuerzo. Sin embargo, los árboles cortos son simples, fáciles de implementar y fáciles de entender. Sin embargo, creo que para tener éxito con un procedimiento de refuerzo, su alumno débil debe tener una variación baja, debe ser rígido, con muy pocos grados de libertad. Por ejemplo, no veo el punto de tener como aprendiz débil una red neuronal.

Además, debe tener en cuenta que para algún tipo de procedimientos de refuerzo, por ejemplo, el aumento de gradiente, Breiman descubrió que si el alumno débil es un árbol, se puede optimizar la forma en que funciona el refuerzo. Por lo tanto, tenemos árboles que aumentan el gradiente. Hay una buena exposición de impulso en el libro ESTL.

rapaio
fuente