¿Son realmente efectivos los datos desequilibrados de muestreo ascendente o descendente? ¿Por qué?

8

Con frecuencia escucho un muestreo ascendente o descendente de los datos discutidos como una forma de tratar con la clasificación de los datos desequilibrados.

Entiendo que esto podría ser útil si está trabajando con un clasificador binario (en lugar de probabilístico o basado en puntajes) y lo trata como un cuadro negro, por lo que los esquemas de muestreo son su única forma de ajustar su posición en la "curva ROC "(entre comillas porque si su clasificador es inherentemente binario, supongo que no tiene una curva ROC real, pero aún se aplica el mismo concepto de intercambio de falsos positivos y falsos negativos).

Pero parece que la misma justificación no se cumple si realmente tiene acceso a algún tipo de puntaje que luego está umbral para tomar una decisión. En este caso, ¿no es un muestreo ascendente solo una forma ad-hoc de expresar una opinión sobre su equilibrio deseado entre falsos positivos y falsos negativos cuando tiene herramientas mucho mejores disponibles, como el análisis ROC real? Parece que sería extraño en este caso esperar que el muestreo ascendente o descendente haga otra cosa que cambiar el "previo" de su clasificador en cada clase (es decir, la probabilidad incondicional de ser esa clase, la predicción de referencia) - No lo haría No espere que cambie la "relación de probabilidades" del clasificador (cuánto ajusta el clasificador su predicción de línea de base en función de las covariables).

Entonces mi pregunta es: si tiene un clasificador que no es un cuadro negro binario, ¿hay alguna razón para esperar que el muestreo ascendente o descendente tenga un efecto mucho mejor que ajustar el umbral a su gusto? De lo contrario, ¿hay algún estudio empírico que muestre efectos razonablemente grandes para el muestreo ascendente o descendente en métricas de rendimiento razonables (por ejemplo, no precisión)?

Ben Kuhn
fuente

Respuestas:

1

Si primero desea recolectar una muestra para hacer una clasificación basada en estos resultados, entonces puede ser necesario un submuestreo incluso desde el costo.

Pero en este caso, sus métodos de estimación generalmente no devuelven las probabilidades de nivel de población, están condicionados al esquema de muestreo que se utilizó.

Aquí hay un ejemplo:

/stats/127476/inference-possibilities-for-matched-case-control-study

Analista
fuente
Por supuesto. Sin embargo, me pregunto más sobre la disminución de datos que ya tiene, en lugar de submuestreo durante la recopilación de datos.
Ben Kuhn