Según tengo entendido, el bosque aleatorio elige aleatoriamente variables variables para construir cada árbol de decisión. Entonces, si mtry = ncol / 3, cada variable se usará en promedio en 1/3 de los árboles. Y 2/3 de los árboles no los usarán.
Pero, ¿y si sé que una sola variable es probablemente muy importante, sería bueno aumentar manualmente la probabilidad de que esta variable se elija en cada árbol? ¿Es factible con el paquete randomForest en R?
fuente
Desde junio de 2015, un nuevo algoritmo de RF prometedor en R-CRAN llamado 'guardabosques' tiene esta característica. Se modifica con, split.select.weights : "Vector numérico con pesos entre 0 y 1, que representa la probabilidad de seleccionar variables para la división".
fuente