Especialmente en el lado orientado a la informática de la literatura de aprendizaje automático, el AUC (área bajo la curva característica del operador receptor) es un criterio popular para evaluar clasificadores. ¿Cuáles son las justificaciones para usar las AUC? Por ejemplo, ¿hay una función de pérdida particular para la cual la decisión óptima es el clasificador con el mejor AUC?
machine-learning
roc
charles.y.zheng
fuente
fuente
Respuestas:
Para los clasificadores binarios utilizados para la clasificación (es decir, para cada ejemplo tenemos en el intervalo ) a partir del cual se mide el AUC, el AUC es equivalente a la probabilidad de que donde es un verdadero ejemplo positivo y es un verdadero ejemplo negativo. Por lo tanto, elegir un modelo con el AUC máximo minimiza la probabilidad de que . Es decir, minimiza la pérdida de clasificación de un verdadero negativo al menos tan grande como un verdadero positivo.C e C(e) [0,1] C(e1)>C(e0) e1 e0 C(e0)≥C(e1)
fuente
Tomemos un ejemplo simple de identificar el buen tomate de un grupo de tomate bueno + malo. Digamos que el número de tomates buenos son 100, y los tomates malos son 1000, entonces un total de 1100. Ahora su trabajo es identificar tantos tomates buenos como sea posible. Una forma de obtener todo el buen tomate es tomar los 1100 tomates. Pero claramente dice que no puede diferenciar b / n bueno vs malo .
Entonces, ¿cuál es la forma correcta de diferenciar? Necesitamos obtener la mayor cantidad de productos buenos mientras se recogen muy pocos malos . Por lo tanto, necesitamos medir algo, que pueda decir cuántos buenos recogimos y también decir qué cuentan los malos en eso. La medida de AUC da más peso si puede seleccionar más buenas con pocas malas, como se muestra a continuación. que dice qué tan bueno eres capaz de diferenciar b / n bueno y malo.
En el ejemplo, puede observar que al recoger el 70% de tomate bueno, la curva negra recogió alrededor del 48% de las malas (impureza), pero la azul tiene 83% de las malas (impureza). Entonces, la curva negra tiene una mejor puntuación de AUC en comparación con la azul.
fuente