¿La clasificación GBM sufre de tamaños de clase desequilibrados?

16

Estoy lidiando con un problema de clasificación binaria supervisada. Me gustaría usar el paquete GBM para clasificar a las personas como no infectadas / infectadas. Tengo 15 veces más personas no infectadas que infectadas.

Me preguntaba si los modelos GBM sufren en el caso de los tamaños de clase desequilibrados? No encontré ninguna referencia para responder esta pregunta.

Traté de ajustar los pesos asignando un peso de 1 a las personas no infectadas y un peso de 15 a los infectados, pero obtuve malos resultados.

yoyó
fuente
1
(nota al margen) Sería útil si proporcionara lo que significa GBM y un enlace al paquete.
Memming
1
¿Qué función de pérdida está utilizando para su modelo de aumento de gradiente? Cuando se trata de clases desequilibradas, he visto un bajo rendimiento cuando he usado un error absoluto medio porque parece favorecer la clase más común. Cuando utilicé el error cuadrático medio, el rendimiento mejoró sustancialmente
Ryan Zotti
Solo para referencia futura, creo que la función de pérdida predeterminada utilizada por la pérdida logarítmica de caret (desviación cruzada) también es bastante útil. (penaliza mucho los casos equivocados en una escala logarítmica negativa)
Lily Long

Respuestas:

4

En mi experiencia, GBM sufre de tamaños de clase desequilibrados. He tenido mucho éxito utilizando el muestreo SMOTE, que crea datos sintéticos mientras se sobremuestrea la clase minoritaria. Lo puedes encontrar en el DMwRpaquete.

Trey
fuente
Estoy un poco confundido. ¿No se supone que GBM es un enfoque para manejar el desequilibrio de datos? Mira esto analyticsvidhya.com/blog/2017/03/…
Lamothy
5

Creo que sus datos son similares a los datos de Secom en los que he trabajado en el pasado y he enfrentado muchas dificultades. Lo siguiente es lo que he intentado:

  • Diferentes técnicas de muestreo
  • Diferentes clasificadores como Random Forest, ANN, GBM, Ensemble, etc.

También probé SVM de 1 clase que ha dado mejores resultados en comparación con otros como adaboost, Random Forest. Puedes probar eso también.

Y puedo ver que has hecho esta pregunta hace 1 año, así que si has encontrado la mejor manera, publícala aquí amablemente para que pueda obtener ayuda para obtener una mejor precisión.

Ankit
fuente