Actualmente estoy usando RF toolbox en MATLAB para un problema de clasificación binaria
Conjunto de datos: 50000 muestras y más de 250 características
Entonces, ¿cuál debería ser el número de árboles y la función seleccionada al azar en cada división para cultivar los árboles? ¿Puede algún otro parámetro afectar en gran medida los resultados?
Número de árboles cuanto más grande, mejor. Casi no puede excederse con este parámetro, pero, por supuesto, el límite superior depende del tiempo computacional que desee pasar en RF.
La buena idea es hacer un bosque largo primero y luego ver (espero que esté disponible en la implementación de MATLAB) cuando converge la precisión OOB.
Número de atributos probados: el valor predeterminado es la raíz cuadrada de la cantidad total de atributos, aunque generalmente el bosque no es muy sensible al valor de este parámetro; de hecho, rara vez se optimiza, especialmente porque el aspecto estocástico de RF puede introducir variaciones más grandes.
fuente
Número de árboles cuanto más grande, mejor: de acuerdo.
El número de atributos probados dependerá. Si ya tiene algo a priori sobre la forma en que se difunde la información o no entre las características. Si la información es compartida por muchas características, mejores resultados obtendrían un valor menor de ese parámetro. Mientras que, por otro lado, si solo unas pocas características llevan la información, debe usar valores más grandes. En otras palabras, con muchas variables relevantes: los valores más pequeños son mejores y con muchas variables irrelevantes: los valores más grandes son mejores.
fuente