¿Existe una estrategia para elegir la cantidad de árboles en un GBM? Específicamente, el ntrees
argumento en R
la gbm
función de.
No veo por qué no debe establecer ntrees
el valor razonable más alto. Me di cuenta de que una mayor cantidad de árboles reduce claramente la variabilidad de los resultados de múltiples GBM. No creo que una gran cantidad de árboles conduzca a un sobreajuste.
¿Alguna idea?
fuente
Esta es la guía de trabajo para aumentar los árboles de regresión de Elith et al .: http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full ¡ Muy útil!
Al menos deberías usar 1000 árboles. Según tengo entendido, debe usar la combinación de tasa de aprendizaje, complejidad de árboles y número de árboles que logra el error predictivo mínimo. Los valores más pequeños de la tasa de aprendizaje conducen a un mayor riesgo de entrenamiento para el mismo número de iteraciones, mientras que cada iteración reduce el riesgo de entrenamiento. Si el número de árboles es lo suficientemente grande, el riesgo puede hacerse arbitrariamente pequeño (ver: Hastie et al., 2001, "Los elementos del aprendizaje estadístico, minería de datos, inferencia y predicción" ).
fuente
Como es común en algunos algoritmos de aprendizaje automático, Boosting está sujeto a una compensación de variación de sesgo con respecto al número de árboles. Hablando en términos generales, esta compensación le dice que: (i) los modelos débiles tienden a tener un alto sesgo y baja varianza: son demasiado rígidos para capturar la variabilidad en el conjunto de datos de entrenamiento, por lo que tampoco funcionará bien en el conjunto de prueba (prueba alta error) (ii) los modelos muy fuertes tienden a tener un sesgo bajo y una gran varianza: son demasiado flexibles y se ajustan demasiado al conjunto de entrenamiento, por lo que en el conjunto de prueba (ya que los puntos de datos son diferentes del conjunto de entrenamiento) tampoco funcionarán bien (error de prueba alto)
El concepto de impulsar árboles es comenzar con árboles poco profundos (modelos débiles) y seguir agregando más árboles poco profundos que intentan corregir las debilidades de los árboles anteriores. A medida que realiza este proceso, el error de prueba tiende a disminuir (porque el modelo general se vuelve más flexible / potente). Sin embargo, si agrega demasiados de esos árboles, comienza a sobreajustar los datos de entrenamiento y, por lo tanto, aumenta el error de prueba. La validación cruzada ayuda a encontrar el punto óptimo
fuente