Un bosque aleatorio (RF) es creado por un conjunto de árboles de decisión (DT). Al usar el ensacado, cada DT se entrena en un subconjunto de datos diferente. Por lo tanto, ¿hay alguna forma de implementar un bosque aleatorio en línea agregando más tensión de decisión en los nuevos datos?
Por ejemplo, tenemos 10K muestras y entrenamos 10 DT's. Luego obtenemos muestras de 1K, y en lugar de entrenar nuevamente la RF completa, agregamos un nuevo DT. La predicción se realiza ahora por el promedio bayesiano de 10 + 1 DT.
Además, si conservamos todos los datos anteriores, los nuevos DT se pueden entrenar principalmente en los nuevos datos, donde la probabilidad de elegir una muestra se pondera dependiendo de cuántas veces ya se hayan recogido.
fuente