Quiero intentar usar Support Vector Machines (SVM) en mi conjunto de datos. Sin embargo, antes de intentar el problema, me advirtieron que los SVM no funcionan bien en datos extremadamente desequilibrados. En mi caso, puedo tener tanto como 95-98% 0's y 2-5% 1's.
Traté de encontrar recursos que hablaran sobre el uso de SVM en datos dispersos / no balanceados, pero todo lo que pude encontrar fue 'sparseSVM' (que usa una pequeña cantidad de vectores de soporte).
Esperaba que alguien pudiera explicar brevemente:
- Qué tan bien se esperaría que SVM hiciera con tal conjunto de datos
- Qué modificaciones, si las hay, deben hacerse al algoritmo SVM
- ¿Qué recursos / documentos discuten esto?
fuente
Los SVM funcionan bien en datos dispersos y no balanceados. El SVM ponderado por clase está diseñado para tratar datos no balanceados mediante la asignación de sanciones de clasificación errónea más altas a las instancias de entrenamiento de la clase minoritaria.
fuente
En el caso de datos escasos como ese SVM funcionará bien.
Según lo indicado por @Bitwise, no debe usar la precisión para medir el rendimiento del algoritmo.
En su lugar, debe calcular la precisión, la recuperación y la puntuación F del algoritmo.
fuente