No soy un experto en bosques aleatorios, pero entiendo claramente que el problema clave con los bosques aleatorios es la generación de árboles (aleatorios). ¿Me puede explicar cómo se generan los árboles? (es decir, ¿cuál es la distribución utilizada para la generación de árboles?)
Gracias por adelantado !
fuente
La idea principal es el procedimiento de ensacado, no hacer árboles al azar. En detalle, cada árbol se construye sobre una muestra de objetos dibujados con reemplazo del conjunto original; así, cada árbol tiene algunos objetos que no ha visto, que es lo que hace que todo el conjunto sea más heterogéneo y, por lo tanto, mejor en generalización.
Además, los árboles se debilitan de tal manera que en cada división solo se consideran M (o
mtry
) atributos seleccionados al azar; M suele ser una raíz cuadrada del número de atributos en el conjunto. Esto asegura que los árboles estén menos equipados, ya que no se podan. Puedes encontrar más detalles aquí .Por otro lado, hay una variante de RF llamada Extreme Random Forest, en la que los árboles se hacen de forma aleatoria (no hay optimización de divisiones): consulte, creo que esta referencia .
fuente