Estoy trabajando en datos gravemente desequilibrados. En la literatura, se utilizan varios métodos para reequilibrar los datos mediante re-muestreo (sobremuestreo o submuestreo). Dos buenos enfoques son:
SMOTE: Técnica de sobremuestreo de minorías sintéticas ( SMOTE )
ADASYN: Enfoque de muestreo sintético adaptativo para el aprendizaje desequilibrado ADASYN )
He implementado ADASYN debido a su naturaleza adaptativa y su facilidad de extensión a problemas de varias clases.
Mi pregunta es cómo probar los datos sobremuestreados producidos por ADASYN (o cualquier otro método de sobremuestreo). No está claro en los dos artículos mencionados cómo realizaron sus experimentos. Hay dos escenarios:
1- Sobremuestrear todo el conjunto de datos, luego dividirlo en conjuntos de entrenamiento y prueba (o validación cruzada).
2- Después de dividir el conjunto de datos original, realice un sobremuestreo solo en el conjunto de entrenamiento y pruebe en el conjunto de prueba de datos original (podría realizarse con validación cruzada).
En el primer caso, los resultados son mucho mejores que sin sobremuestreo, pero me preocupa si hay un sobreajuste. Mientras que en el segundo caso, los resultados son ligeramente mejores que sin sobremuestreo y mucho peores que en el primer caso. Pero la preocupación con el segundo caso es que si todas las muestras de clase minoritaria van al conjunto de prueba, entonces no se logrará ningún beneficio con el sobremuestreo.
No estoy seguro de si hay alguna otra configuración para probar dichos datos.
La segunda (2) opción es la forma correcta de hacerlo. Las muestras sintéticas que crea con las técnicas de sobremuestreo no son ejemplos reales sino sintéticos. Estos no son válidos para fines de prueba, mientras que todavía están bien para el entrenamiento. Su objetivo es modificar el comportamiento del clasificador sin modificar el algoritmo.
fuente