¿A qué se refiere el "tamaño de nodo" en el bosque aleatorio?

Respuestas:

24

Un árbol de decisión funciona por partición recursiva del conjunto de entrenamiento. Cada nodo de un árbol de decisión está asociado con un conjunto de puntos de datos del conjunto de entrenamiento:tnortet

n_t es el tamaño de cada nodo

Puede encontrar el parámetro nodesizeen algunos paquetes de bosques aleatorios, por ejemplo, R : este es el tamaño mínimo del nodo , en el ejemplo anterior, el tamaño mínimo del nodo es 10. Este parámetro establece implícitamente la profundidad de sus árboles.

nodesize del paquete de bosque aleatorio R

Tamaño mínimo de nodos terminales. Establecer este número más grande hace que se cultiven árboles más pequeños (y por lo tanto toma menos tiempo). Tenga en cuenta que los valores predeterminados son diferentes para la clasificación (1) y la regresión (5).

En otros paquetes encontrará directamente el parámetro depth, por ejemplo, WEKA :

-depth del paquete forestal aleatorio WEKA

La profundidad máxima de los árboles, 0 para ilimitado. (predeterminado 0)

Simone
fuente
1
¿Qué son los 'registros'? ¿Te refieres a puntos de datos? ¿Por qué cada nodo está asociado con un conjunto de registros? Entiendo los bosques aleatorios bastante bien, pero no sé qué significa la jerga.
wolfsatthedoor
Sí, me refería al punto de datos. Por lo general, puede referirse a los puntos de datos como registros, instancias o ejemplos.
Simone
Entonces, ¿hay una regla general de tamaño mínimo de nodo para evitar sobreajustar los árboles? Me imagino que depende del tamaño de los datos de entrenamiento, ¿tal vez una cierta proporción del tamaño del conjunto de datos?
Seanosapien
1
En bosques aleatorios, los árboles crecen completamente: el tamaño del nodo es 1. Se evita el sobreajuste al hacer crecer muchos árboles. En el árbol de decisión es más complicado. Los árboles no están completamente desarrollados y debe realizar una poda para evitar el sobreajuste.
Simone
1
Parece que aventar es una especie de selección de características para simplificar el árbol y evitar el sobreajuste. Supongo que podar un solo árbol siempre es beneficioso. En cambio, aventar a veces puede disminuir la precisión, pero simplifica el árbol.
Simone
2

No está claro si el tamaño de nodo está en el muestreo "en bolsa" o en el error "fuera de bolsa". Si está en el muestreo "fuera de bolsa", es un poco más restrictivo.

Caballero oscuro
fuente