Crear un conjunto de datos desequilibrado

11

Me gustaría probar mi modelo entrenado en un conjunto de datos desequilibrado. ¿Hay algún algoritmo disponible para generar datos sintéticos a partir de un conjunto de datos etiquetado equilibrado (spam / no spam)?

Stuart Peterson
fuente
Siempre puede desequilibrar cualquier conjunto de datos simplemente submuestreando una clase.
user2974951

Respuestas:

8

Pruebe SMOTE , es un algoritmo utilizado para sobremuestreo . Crea muestras sintéticas de la clase que desea sobremuestrear.

Puede usar esto para crear cualquier cantidad de muestras que necesite.

Mary93
fuente
1
¿Se puede utilizar SMOTE para submuestreo también?
Stuart Peterson el
Bueno, puedes obtener un submuestreo de la clase A sobremuestreando la clase no A ...
kjetil b halvorsen
3
@StuartPeterson No, SMOTE es un algoritmo de sobremuestreo, pero hay muchos otros algoritmos de
submuestreo