¿Qué algoritmos de ensacado son dignos sucesores de Random Forest?

14

Para impulsar algoritmos, diría que evolucionaron bastante bien. A principios de 1995 se introdujo AdaBoost, luego de un tiempo fue Gradient Boosting Machine (GBM). Recientemente, alrededor de 2015 se introdujo XGBoost, que es preciso, maneja el sobreajuste y se ha convertido en un ganador de múltiples competencias de Kaggle. En 2017, LightGBM fue presentado por Microsoft, que ofrece un tiempo de entrenamiento significativamente menor en comparación con XGBoost. Además, Yandex introdujo CatBoost para manejar características categóricas.

Random Forest se introdujo a principios de la década de 2000, pero ¿ha habido sucesores dignos? Creo que si existiera un mejor algoritmo de ensacado que Random Forest (que se puede aplicar fácilmente en la práctica), habría llamado la atención en lugares como Kaggle. Además, ¿por qué el refuerzo se convirtió en la técnica de conjunto más popular, es porque puedes construir menos árboles para una predicción óptima?

Mario
fuente
1
adaBoost se introdujo en realidad en 1995, pero ese es un punto menor que no altera su tesis fundamental.
jbowman
3
Desde los bosques aleatorios también hemos visto la introducción de árboles extremadamente aleatorios , aunque no estoy al tanto de ninguna buena evidencia de que estos superen a los bosques aleatorios con alguna coherencia, por lo que pueden no ser un sucesor "digno" ...
Jake Westfall
1
BART ( arxiv.org/abs/0806.3286 ) es un modelo bayesiano que evolucionó a partir del CARRITO Bayesiano de un solo árbol y está inspirado en los métodos de conjunto clásico. Vale la pena explorarlo.
Zen
el impulso se hizo más popular ya que maneja muchos problemas con éxito con técnicas de aprendizaje débiles
Refael
Vale la pena mencionar los bosques codiciosos regularizados (lentos pero con buenos resultados) y los bosques aleatorios cuantiles por sus efectos secundarios geniales.
Michael M

Respuestas:

3

xgboost, catboost y lightgbm usan algunas características del bosque aleatorio (muestreo aleatorio de variables / observaciones), por lo que creo que son un sucesor de impulso y RF juntos y toman las mejores cosas de ambos. ;)

PhilippPro
fuente