Definición de complejidad de un árbol en xgboost

9

Investigando sobre el algoritmo xgboost, revisé la documentación .

En este enfoque, los árboles se regularizan utilizando la definición de complejidad donde y son parámetros, es el número de hojas terminales y es la puntuación en cada hoja.

Ω(F)=γT+12λj=1Twj2
γλTwj

Me pregunto: ¿cómo define esto la complejidad? , el número de nodos terminales, me parece natural. ¿Pero la suma de las puntuaciones finales al cuadrado?T

Tal vez se pretende sobreajustar. ¿Significa que puntuaciones muy grandes dan demasiada confianza? ¿Se elige obtener un alumno débil? ¿Cuál es una explicación natural para esta elección de la función de complejidad?

Ric
fuente

Respuestas:

7

Esto tiene sentido para mí.

Me centraré en el caso gaussiano. Aquí cada árbolTyose ajusta a los residuos del modelo actual y la actualización del modelo esMETROyo+1=METROyo+αTyo. La idea de un refuerzo de gradiente es reducir cuidadosa y lentamente el sesgo del modelo agregando estos árboles uno por uno.

En este caso, un gran valor de wyocorrespondería a un nodo terminal (hoja) que proporciona una actualización muy grande y significativa al modelo anterior. La idea del término de regularización es minimizar estos incidentes de grandes actualizaciones de árbol único (solo permitiéndolas si la disminución en la función de pérdida del modelo es lo suficientemente grande como para compensar la penalización de regularización). Si dicha actualización se regulariza para un solo árbol, pero resulta justificada, se incluirá en varias actualizaciones de modelos, de acuerdo con la filosofía de impulsar.

Esto está en una analogía muy cercana a la regresión de cresta.

Matthew Drury
fuente
Gracias, así lo piensas de manera similar a como lo hago cuando hablo de un alumno débil ... Débil en el sentido si no da pasos demasiado grandes ...
Ric
¿Podría ser más específico para lo que es el "caso gaussiano"? encajar una mezcla de gaussianos?
Haitao Du
@ hxd1011 Solo quiero decir que estamos usando la suma de la pérdida de errores al cuadrado, también conocida como la probabilidad logarítmica de la distribución gaussiana. El punto principal es que aquí puede suponer que solo se está ajustando a los residuos.
Matthew Drury el
@MatthewDrury, ¿podría echar un vistazo a esta pregunta relacionada? ¡¡Gracias!! stats.stackexchange.com/questions/229599/…
Haitao Du