Bosques aleatorios en línea agregando más árboles de decisión individuales

Un bosque aleatorio (RF) es creado por un conjunto de árboles de decisión (DT). Al usar el ensacado, cada DT se entrena en un subconjunto de datos diferente. Por lo tanto, ¿hay alguna forma de implementar un bosque aleatorio en línea agregando más tensión de decisión en los nuevos datos?

Por ejemplo, tenemos 10K muestras y entrenamos 10 DT's. Luego obtenemos muestras de 1K, y en lugar de entrenar nuevamente la RF completa, agregamos un nuevo DT. La predicción se realiza ahora por el promedio bayesiano de 10 + 1 DT.

Además, si conservamos todos los datos anteriores, los nuevos DT se pueden entrenar principalmente en los nuevos datos, donde la probabilidad de elegir una muestra se pondera dependiendo de cuántas veces ya se hayan recogido.

random-forest online-learning tashuhka
fuente

Respuestas:

Hay un artículo reciente sobre este tema ( Bosques aleatorios en línea ), que proviene de la visión por computadora. Aquí hay una implementación y una presentación: bosques aleatorios en línea en 10 minutos

Emre
fuente

La implementación que mencionó sigue una estrategia de crecimiento de árboles, como los bosques de Mondrian ( arxiv.org/abs/1406.2673 ). Por lo tanto, el número de árboles es constante mientras que el número de divisiones aumenta. Mi pregunta se enfoca en aumentar el número de árboles para nuevas muestras sin tocar los árboles previamente entrenados.

Tashuhka

Me gusta esto ? ¿No quieres también dejar caer árboles si es apropiado?

Emre

Gracias. Esto es más similar a lo que estoy buscando. En este caso, use RF para la selección de características de señales de tiempo variable. Sin embargo, la implementación específica y la validez del método no están claras, ¿sabe si publicaron algo (Google no ayudó)?

Tashuhka

Cálculo de la importancia de las características en los flujos de datos con Concept Drift usando el bosque aleatorio en línea

Emre

Gracias por el enlace! Puedo ver que en realidad actualizan todos los árboles anteriores utilizando una estrategia de crecimiento de árboles, y estoy interesado en crear nuevos DT con los nuevos datos mientras se mantienen intactos los árboles viejos.

Tashuhka