¿Justificación del uso de AUC?

10

Especialmente en el lado orientado a la informática de la literatura de aprendizaje automático, el AUC (área bajo la curva característica del operador receptor) es un criterio popular para evaluar clasificadores. ¿Cuáles son las justificaciones para usar las AUC? Por ejemplo, ¿hay una función de pérdida particular para la cual la decisión óptima es el clasificador con el mejor AUC?

charles.y.zheng
fuente
1
AUC es una función de pérdida, está claro que para esta función de pérdida la decisión óptima es el clasificador con el mejor AUC.
robin girard 05 de
1
@robingirard No, no lo es, ya que no es diferenciable, es decir, no puede optimizarlo directamente.
cpury

Respuestas:

15

Para los clasificadores binarios utilizados para la clasificación (es decir, para cada ejemplo tenemos en el intervalo ) a partir del cual se mide el AUC, el AUC es equivalente a la probabilidad de que donde es un verdadero ejemplo positivo y es un verdadero ejemplo negativo. Por lo tanto, elegir un modelo con el AUC máximo minimiza la probabilidad de que . Es decir, minimiza la pérdida de clasificación de un verdadero negativo al menos tan grande como un verdadero positivo.CeC(e)[0,1]C(e1)>C(e0)e1e0C(e0)C(e1)

erik
fuente
0

Tomemos un ejemplo simple de identificar el buen tomate de un grupo de tomate bueno + malo. Digamos que el número de tomates buenos son 100, y los tomates malos son 1000, entonces un total de 1100. Ahora su trabajo es identificar tantos tomates buenos como sea posible. Una forma de obtener todo el buen tomate es tomar los 1100 tomates. Pero claramente dice que no puede diferenciar b / n bueno vs malo .

Entonces, ¿cuál es la forma correcta de diferenciar? Necesitamos obtener la mayor cantidad de productos buenos mientras se recogen muy pocos malos . Por lo tanto, necesitamos medir algo, que pueda decir cuántos buenos recogimos y también decir qué cuentan los malos en eso. La medida de AUC da más peso si puede seleccionar más buenas con pocas malas, como se muestra a continuación. que dice qué tan bueno eres capaz de diferenciar b / n bueno y malo.

En el ejemplo, puede observar que al recoger el 70% de tomate bueno, la curva negra recogió alrededor del 48% de las malas (impureza), pero la azul tiene 83% de las malas (impureza). Entonces, la curva negra tiene una mejor puntuación de AUC en comparación con la azul. ingrese la descripción de la imagen aquí

yugandhar
fuente
¿Cómo responde esto a la pregunta?
Vivek Subramanian
Había escrito con intuición de AUC que ayuda a dar una puntuación única para identificar las buenas (1 en la clasificación binaria) en toda la población, al tiempo que reduce el número de falsos positivos. Ayúdame, ¿cómo podría haberlo hecho mejor para esto?
Yugandhar