¿Cuál es su opinión sobre el sobremuestreo en la clasificación en general, y el algoritmo SMOTE en particular? ¿Por qué no solo aplicaríamos un costo / penalización para ajustar el desequilibrio en los datos de clase y cualquier costo de error no balanceado? Para mis propósitos, la precisión de la predicción para un conjunto futuro de unidades experimentales es la medida definitiva.
Como referencia, el artículo SMOTE: http://www.jair.org/papers/paper953.html
machine-learning
classification
oversampling
Dave Cummins
fuente
fuente
Respuestas:
{1} ofrece una lista de ventajas y desventajas del aprendizaje sensible al costo versus el muestreo:
También hicieron una serie de experimentos, que no fueron concluyentes:
Luego intentan comprender qué criterios en los conjuntos de datos pueden indicar qué técnica se ajusta mejor.
También comentan que SMOTE puede aportar algunas mejoras:
{1} Weiss, Gary M., Kate McCarthy y Bibi Zabar. "Aprendizaje sensible al costo versus muestreo: ¿cuál es el mejor para manejar clases desequilibradas con costos de error desiguales?" DMIN 7 (2007): 35-41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=en&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf
fuente