Estoy lidiando con un problema de clasificación binaria supervisada. Me gustaría usar el paquete GBM para clasificar a las personas como no infectadas / infectadas. Tengo 15 veces más personas no infectadas que infectadas.
Me preguntaba si los modelos GBM sufren en el caso de los tamaños de clase desequilibrados? No encontré ninguna referencia para responder esta pregunta.
Traté de ajustar los pesos asignando un peso de 1 a las personas no infectadas y un peso de 15 a los infectados, pero obtuve malos resultados.
Respuestas:
En mi experiencia, GBM sufre de tamaños de clase desequilibrados. He tenido mucho éxito utilizando el muestreo SMOTE, que crea datos sintéticos mientras se sobremuestrea la clase minoritaria. Lo puedes encontrar en el
DMwR
paquete.fuente
Creo que sus datos son similares a los datos de Secom en los que he trabajado en el pasado y he enfrentado muchas dificultades. Lo siguiente es lo que he intentado:
También probé SVM de 1 clase que ha dado mejores resultados en comparación con otros como adaboost, Random Forest. Puedes probar eso también.
Y puedo ver que has hecho esta pregunta hace 1 año, así que si has encontrado la mejor manera, publícala aquí amablemente para que pueda obtener ayuda para obtener una mejor precisión.
fuente