Estoy un poco confuso sobre el Área bajo curva (AUC) de ROC y la precisión general.
¿El AUC será proporcional a la precisión general? En otras palabras, cuando tengamos una precisión general mayor, ¿obtendremos definitivamente un AUC más grande? ¿O están por definición positivamente correlacionados?
Si están positivamente correlacionados, ¿por qué nos molestamos en informarlos a ambos en algunas publicaciones?
En el caso real, realicé una tarea de clasificación y obtuve los resultados de la siguiente manera: el clasificador A obtuvo una precisión del 85% y un AUC de 0,98 y el clasificador B obtuvo una precisión del 93% y un AUC de 0,92. La pregunta es, ¿qué clasificador es mejor? ¿O es posible obtener resultados similares como estos (quiero decir que puede haber un error en mi implementación)?
fuente
Respuestas:
AUC (basado en ROC) y la precisión general no parecen ser el mismo concepto.
La precisión general se basa en un punto de corte específico, mientras que ROC prueba todos los puntos de corte y traza la sensibilidad y la especificidad. Entonces, cuando comparamos la precisión general, estamos comparando la precisión en función de algún punto de corte. La precisión general varía desde diferentes puntos de corte.
fuente
Si bien es probable que las dos medidas estadísticas estén correlacionadas, miden diferentes cualidades del clasificador.
AUROC
El área bajo la curva (AUC) es igual a la probabilidad de que un clasificador clasifique una instancia positiva elegida al azar más alta que un ejemplo negativo elegido al azar. Mide la habilidad de los clasificadores para clasificar un conjunto de patrones según el grado al que pertenecen a la clase positiva, pero sin asignar patrones a las clases.
La precisión general también depende de la capacidad del clasificador para clasificar patrones, pero también de su capacidad para seleccionar un umbral en la clasificación utilizada para asignar patrones a la clase positiva si está por encima del umbral y a la clase negativa si está por debajo.
Por lo tanto, es probable que el clasificador con la estadística AUROC más alta (en igualdad de condiciones) también tenga una mayor precisión general, ya que la clasificación de los patrones (que AUROC mide) es beneficiosa tanto para AUROC como para la precisión general. Sin embargo, si un clasificador clasifica bien los patrones, pero selecciona mal el umbral, puede tener un AUROC alto pero una precisión general deficiente.
Uso práctico
En la práctica, me gusta recopilar la precisión general, el AUROC y si el clasificador estima la probabilidad de pertenencia a la clase, la entropía cruzada o la información predictiva. Luego tengo una métrica que mide su capacidad bruta para realizar una clasificación difícil (suponiendo que los costos de clasificación errónea de falsos positivos y falsos negativos sean iguales y que las frecuencias de clase en la muestra sean las mismas que las de uso operativo, ¡una gran suposición!), una métrica que mide la capacidad de clasificar patrones y una métrica que mide qué tan bien se calibra la clasificación como una probabilidad.
Para muchas tareas, los costos de clasificación errónea operativa son desconocidos o variables, o las frecuencias de la clase operativa son diferentes a las de la muestra de capacitación o son variables. En ese caso, la precisión general a menudo es bastante insignificante y el AUROC es un mejor indicador de rendimiento e idealmente queremos un clasificador que genere probabilidades bien calibradas, para que podamos compensar estos problemas en el uso operativo. Esencialmente, qué métrica es importante depende del problema que estamos tratando de resolver.
fuente
¿AUC es realmente una métrica muy útil?
Yo diría que el costo esperado es una medida más apropiada.
Entonces tendría un costo A para todos los falsos positivos y un costo B para todos los falsos negativos. Es fácil que otra clase sea relativamente más cara que otra. Por supuesto, si tiene costos por clasificación falsa en los distintos subgrupos, sería una métrica aún más poderosa.
Al trazar el corte en el eje xy el costo esperado en el eje y, puede ver qué punto de corte minimiza el costo esperado.
Formalmente tiene una pérdida de función de pérdida (corte | datos, costo) que intenta minimizar.
fuente
Al igual que todas las respuestas se han publicado:
ROC
yaccuracy
es fundamental dos conceptos diferentes.En términos generales,
ROC
describe el poder discriminativo de un clasificador independiente de la distribución de la clase y los costos de error de predicción desigual (costo falso positivo y falso negativo).Metric like
accuracy
se calcula en función de la distribución de clase detest dataset
ocross-validation
, pero esta relación puede cambiar cuando aplica el clasificador a los datos de la vida real, porque la distribución de clase subyacente ha cambiado o es desconocida. Por otro lado,TP rate
y losFP rate
que se utilizan para construirAUC
no se verán afectados por el cambio de distribución de clase.fuente