Papel del parámetro n.minobsinnode de GBM en R [cerrado]
21
Quería saber qué significa el parámetro n.minobsinnode en el paquete GBM. Leí el manual, pero no está claro qué hace. ¿Debería ese número ser pequeño o grande para mejorar los resultados?
"Es poco probable que esta pregunta ayude a futuros visitantes". Soy un visitante futuro, y lo encontré útil.
Flounderer
1
También lo encontré útil.
oaxacamatt
Respuestas:
25
En cada paso del algoritmo GBM, se construye un nuevo árbol de decisión. La pregunta al hacer crecer un árbol de decisión es "¿cuándo parar?". Lo más lejos que puede llegar es dividir cada nodo hasta que haya solo 1 observación en cada nodo terminal. Esto correspondería a n.minobsinnode = 1. Alternativamente, la división de nodos puede cesar cuando hay un cierto número de observaciones en cada nodo. El valor predeterminado para el paquete R GBM es 10.
¿Cuál es el mejor valor para usar? Depende del conjunto de datos y de si está haciendo clasificación o regresión. Dado que la predicción de cada árbol se toma como el promedio de la variable dependiente de todas las entradas en el nodo terminal, un valor de 1 probablemente no funcionará tan bien para la regresión (!) Pero puede ser adecuado para la clasificación.
Los valores más altos significan árboles más pequeños, así que haga que el algoritmo se ejecute más rápido y use menos memoria, lo que puede ser una consideración.
En general, los resultados no son muy sensibles a este parámetro y, dada la naturaleza estocástica del rendimiento de GBM, en realidad podría ser difícil determinar exactamente qué valor es "el mejor". La profundidad de interacción, la contracción y el número de árboles serán mucho más significativos en general.
Respuestas:
En cada paso del algoritmo GBM, se construye un nuevo árbol de decisión. La pregunta al hacer crecer un árbol de decisión es "¿cuándo parar?". Lo más lejos que puede llegar es dividir cada nodo hasta que haya solo 1 observación en cada nodo terminal. Esto correspondería a n.minobsinnode = 1. Alternativamente, la división de nodos puede cesar cuando hay un cierto número de observaciones en cada nodo. El valor predeterminado para el paquete R GBM es 10.
¿Cuál es el mejor valor para usar? Depende del conjunto de datos y de si está haciendo clasificación o regresión. Dado que la predicción de cada árbol se toma como el promedio de la variable dependiente de todas las entradas en el nodo terminal, un valor de 1 probablemente no funcionará tan bien para la regresión (!) Pero puede ser adecuado para la clasificación.
Los valores más altos significan árboles más pequeños, así que haga que el algoritmo se ejecute más rápido y use menos memoria, lo que puede ser una consideración.
En general, los resultados no son muy sensibles a este parámetro y, dada la naturaleza estocástica del rendimiento de GBM, en realidad podría ser difícil determinar exactamente qué valor es "el mejor". La profundidad de interacción, la contracción y el número de árboles serán mucho más significativos en general.
fuente