¿Cómo el bosque aleatorio genera el bosque aleatorio?

20

No soy un experto en bosques aleatorios, pero entiendo claramente que el problema clave con los bosques aleatorios es la generación de árboles (aleatorios). ¿Me puede explicar cómo se generan los árboles? (es decir, ¿cuál es la distribución utilizada para la generación de árboles?)

Gracias por adelantado !

robin girard
fuente

Respuestas:

16

Las implementaciones de RF difieren ligeramente. Sé que se supone que la implementación patentada de Salford Systems es mejor que la de vainilla en R. Una descripción del algoritmo está en ESL por Friedman-Hastie-Tibshirani, segunda edición, tercera impresión . Un capítulo entero (15) está dedicado a RF, y lo encuentro más claro que el documento original. El algoritmo de construcción del árbol se detalla en p.588; no es necesario que lo reproduzca aquí, ya que el libro está disponible en línea.

alegre
fuente
Muchas gracias por tu respuesta ! He leído este libro desde la primera hasta la última página, pero creo que era la edición 1 ... No sabía que estaba disponible en línea.
robin girard
19

La idea principal es el procedimiento de ensacado, no hacer árboles al azar. En detalle, cada árbol se construye sobre una muestra de objetos dibujados con reemplazo del conjunto original; así, cada árbol tiene algunos objetos que no ha visto, que es lo que hace que todo el conjunto sea más heterogéneo y, por lo tanto, mejor en generalización.

Además, los árboles se debilitan de tal manera que en cada división solo se consideran M (o mtry) atributos seleccionados al azar; M suele ser una raíz cuadrada del número de atributos en el conjunto. Esto asegura que los árboles estén menos equipados, ya que no se podan. Puedes encontrar más detalles aquí .

Por otro lado, hay una variante de RF llamada Extreme Random Forest, en la que los árboles se hacen de forma aleatoria (no hay optimización de divisiones): consulte, creo que esta referencia .

Amelio Vazquez-Reina
fuente
Lo siento, pero realmente no entiendo tu respuesta. ¿Qué quiere decir con "en detalle, cada árbol se basa en una muestra de objetos dibujados con reemplazo del conjunto original" ¿Puede dar más precisión sobre dónde encuentro los detalles "aquí"?
robin girard
1
Así es como funciona el embolsado; echa un vistazo a en.wikipedia.org/wiki/Bootstrap_aggregating . Aquí hay un enlace (apenas visible en ese tema, lo admito) a la referencia detallada de RF.