Creo que en el documento original sugieren usar ), pero de cualquier manera la idea es la siguiente:Iniciar sesión2( N+ 1
El número de características seleccionadas al azar puede influir en el error de generalización de dos maneras: la selección de muchas características aumenta la fuerza de los árboles individuales, mientras que la reducción del número de características conduce a una menor correlación entre los árboles, lo que aumenta la fuerza del bosque en su conjunto.
Lo interesante es que los autores de Random Forests (pdf) encuentran una diferencia empírica entre clasificación y regresión:
Una diferencia interesante entre la regresión y la clasificación es que la correlación aumenta bastante lentamente a medida que aumenta el número de características utilizadas.
norte/ 3norte--√
norte--√Iniciar sesiónnorte
El rango intermedio suele ser grande. En este rango, a medida que aumenta el número de características, la correlación aumenta, pero PE * (árbol) compensa disminuyendo.
(PE * es el error de generalización)
Como dicen en Elementos del aprendizaje estadístico:
En la práctica, los mejores valores para estos parámetros dependerán del problema y deben tratarse como parámetros de ajuste.
Una cosa de la que puede depender su problema es el número de variables categóricas. Si tiene muchas variables categóricas que están codificadas como variables ficticias, generalmente tiene sentido aumentar el parámetro. Nuevamente, del artículo de Random Forests:
i n t ( l o g2METRO+ 1 )