Tengo un conjunto de datos muy desequilibrado. Estoy tratando de seguir los consejos y el uso de la optimización,scale_pos_weight
pero no estoy seguro de cómo debo ajustarlo.
Puedo ver que RegLossObj.GetGradient
sí:
if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight
entonces un gradiente de una muestra positiva sería más influyente. Sin embargo, de acuerdo con el artículo xgboost , la estadística de gradiente siempre se usa localmente = dentro de las instancias de un nodo específico en un árbol específico:
- dentro del contexto de un nodo, para evaluar la reducción de pérdidas de una división candidata
- dentro del contexto de un nodo hoja, para optimizar el peso dado a ese nodo
Por lo tanto, no hay forma de saber de antemano qué sería bueno scale_pos_weight
: es un número muy diferente para un nodo que termina con una relación 1: 100 entre instancias positivas y negativas, y para un nodo con una relación 1: 2.
¿Alguna pista?
unbalanced-classes
xgboost
ihadanny
fuente
fuente
Respuestas:
Generalmente, el Scale_pos_weight es la relación entre el número de clase negativa y la clase positiva. Supongamos que el conjunto de datos tiene 90 observaciones de clase negativa y 10 observaciones de clase positiva, entonces el valor ideal de scale_pos_Weight debería ser 9. Puede verificar el siguiente enlace. http://xgboost.readthedocs.io/en/latest/parameter.html
fuente
Toda la documentación dice que debe ser:
En la práctica, eso funciona bastante bien, pero si su conjunto de datos está extremadamente desequilibrado, recomendaría usar algo más conservador como:
Esto es útil para limitar el efecto de una multiplicación de ejemplos positivos por un peso muy alto.
fuente
Entiendo su pregunta y frustración, pero no estoy seguro de que esto sea algo que pueda calcularse analíticamente, más bien tendría que determinar una buena configuración empírica para sus datos, como lo hace para la mayoría de los hiperparámetros, utilizando la validación cruzada como @ user2149631 sugirió. He tenido cierto éxito al usar SelectFPR con Xgboost y la API sklearn para reducir el FPR para XGBoost a través de la selección de funciones, y luego ajustar aún más el scale_pos_weight entre 0 y 1.0. O.9 parece funcionar bien, pero como con cualquier cosa, YMMV depende de sus datos. También puede ponderar cada punto de datos individualmente cuando lo envíe a XGboost si mira sus documentos. Tienes que usar su API, no el envoltorio sklearn. De esa manera, puede ponderar un conjunto de puntos de datos mucho más alto que el otro, e impactará el algoritmo de refuerzo que utiliza.
fuente
También me topé con este dilema y aún busco la mejor solución. Sin embargo, le sugiero que utilice métodos como Grid Search (GridSearchCV en sklearn) para el mejor ajuste de parámetros para su clasificador. Sin embargo, si su conjunto de datos está altamente desequilibrado, vale la pena considerar los métodos de muestreo (especialmente los métodos de sobremuestreo aleatorio y SMOTE) y el conjunto de modelos en muestras de datos con diferentes proporciones de ejemplos de clases positivas y negativas. Aquí hay un tutorial agradable y útil (casi completo) sobre el manejo de conjuntos de datos desequilibrados.
https://www.analyticsvidhya.com/blog/2017/03/imbalanced-classification-problem/
fuente