He leído varias declaraciones (aparentemente) contradictorias sobre si AdaBoost (u otras técnicas de refuerzo) son menos o más propensas al sobreajuste en comparación con otros métodos de aprendizaje.
¿Hay buenas razones para creer lo uno o lo otro? Si depende, ¿de qué depende? ¿Cuáles son las razones por las que AdaBoost es menos / más propenso al sobreajuste?
machine-learning
boosting
blubb
fuente
fuente
caret
paquete para validar de forma cruzada adaboost, y he descubierto que generalmente se generaliza bien.Respuestas:
Como usted dice, se ha discutido mucho sobre este asunto, y hay una teoría bastante pesada que lo ha acompañado que debo admitir que nunca entendí completamente. En mi experiencia práctica, AdaBoost es bastante robusto para sobreajustar, y LPBoost (Linear Programming Boosting) aún más (porque la función objetivo requiere una combinación escasa de estudiantes débiles, que es una forma de control de capacidad). Los principales factores que influyen en él son:
La "fuerza" de los estudiantes "débiles": si utiliza estudiantes débiles muy simples, como los tocones de decisión (árboles de decisión de 1 nivel), entonces los algoritmos son mucho menos propensos al sobreajuste. Cada vez que he intentado usar alumnos débiles más complicados (como árboles de decisión o incluso hiperplanos), descubro que el sobreajuste ocurre mucho más rápidamente
El nivel de ruido en los datos: AdaBoost es particularmente propenso a sobreajustar en conjuntos de datos ruidosos. En esta configuración, son preferibles los formularios regularizados (RegBoost, AdaBoostReg, LPBoost, QPBoost)
La dimensionalidad de los datos: sabemos que, en general, experimentamos un sobreajuste más en espacios de alta dimensión ("la maldición de la dimensionalidad"), y AdaBoost también puede sufrir en ese sentido, ya que es simplemente una combinación lineal de clasificadores que ellos mismos sufren del problema Es difícil determinar si es tan propenso como otros clasificadores.
fuente
Estoy de acuerdo con la mayoría de los puntos mencionados en el comentario tdc. Sin embargo, tengo que agregar y corregir algunas cosas.
fuente