Tengo un conjunto de datos de prueba altamente desequilibrado. El conjunto positivo consta de 100 casos, mientras que el conjunto negativo consta de 1500 casos. En el lado del entrenamiento, tengo un grupo de candidatos más grande: el conjunto de entrenamiento positivo tiene 1200 casos y el conjunto de entrenamiento negativo tiene 12000 casos. Para este tipo de escenario, tengo varias opciones:
1) Uso de SVM ponderado para todo el conjunto de entrenamiento (P: 1200, N: 12000)
2) Usando SVM basado en el conjunto de entrenamiento muestreado (P: 1200, N: 1200), los 1200 casos negativos se muestrean de 12000 casos.
¿Existe alguna orientación teórica para decidir qué enfoque es mejor? Dado que el conjunto de datos de prueba está altamente desequilibrado, ¿debo usar también el conjunto de entrenamiento desequilibrado?
fuente
Respuestas:
De una publicación reciente en reddit, la respuesta por datapraxis será de interés.
editar: el documento mencionado es Haibo He, Edwardo A. Garcia, "Aprendiendo de datos desequilibrados", IEEE Transactions on Knowledge and Data Engineering, pp. 1263-1284, septiembre de 2009 (PDF)
fuente
Regresión logística expandida por pares, aprendizaje basado en ROC, refuerzo y embolsado (agregación Bootstrap), conjunto de clúster basado en enlaces (LCE), red bayesiana, clasificadores centroides más cercanos, técnicas bayesianas, conjunto bruto ponderado, k-NN
y muchos métodos de muestreo para manejar el desequilibrio.
fuente