Área bajo la curva de ROC vs. precisión general

29

Estoy un poco confuso sobre el Área bajo curva (AUC) de ROC y la precisión general.

  1. ¿El AUC será proporcional a la precisión general? En otras palabras, cuando tengamos una precisión general mayor, ¿obtendremos definitivamente un AUC más grande? ¿O están por definición positivamente correlacionados?

  2. Si están positivamente correlacionados, ¿por qué nos molestamos en informarlos a ambos en algunas publicaciones?

  3. En el caso real, realicé una tarea de clasificación y obtuve los resultados de la siguiente manera: el clasificador A obtuvo una precisión del 85% y un AUC de 0,98 y el clasificador B obtuvo una precisión del 93% y un AUC de 0,92. La pregunta es, ¿qué clasificador es mejor? ¿O es posible obtener resultados similares como estos (quiero decir que puede haber un error en mi implementación)?

Samo Jerom
fuente
1
Encontré que un periódico puede tener algún interés para algunos de ustedes. google.co.uk/…
Samo Jerom
¿No se supone que AUC es menor que la precisión general ya que contamos para la tasa de falsos positivos en la medida de AUC mientras no lo hacemos en la precisión?
Ali Sultan
ROC AUC es beneficioso cuando las clases tienen un tamaño diferente. Si el 99% de los objetos son positivos, se puede obtener una precisión del 99% mediante muestreo aleatorio. Entonces el valor ROC AUC será mucho más significativo.
Anony-Mousse

Respuestas:

26

AUC (basado en ROC) y la precisión general no parecen ser el mismo concepto.

La precisión general se basa en un punto de corte específico, mientras que ROC prueba todos los puntos de corte y traza la sensibilidad y la especificidad. Entonces, cuando comparamos la precisión general, estamos comparando la precisión en función de algún punto de corte. La precisión general varía desde diferentes puntos de corte.

Vincent
fuente
2
¡Muchas gracias por tu respuesta! Entiendo que la precisión general se obtiene de cierto punto de corte (o valor umbral). Sin embargo, hay un mejor punto de corte, es decir, el más cercano a la esquina superior izquierda. Por ejemplo, mi precisión general se calcula utilizando este mejor punto de corte, y el AUC es para todos los diferentes puntos de corte. Entonces, ¿cómo interpretar esta precisión y AUC? Por ejemplo, el rendimiento de los dos clasificadores que mencioné anteriormente.
Samo Jerom
3
Oh ya veo. Está comparando la mejor precisión general y AUC. Pero siguen siendo un concepto diferente de nuevo. El AUC es P (VERDADERO predicho | VERDADERO real) vs P (FALSO | FALSO), mientras que la precisión general es P = P (VERDADERO | VERDADERO) * P (VERDADERO VERDADERO) + P (FALSO | FALSO) * P ( FALSO real). Entonces, esto depende mucho de la proporción del valor verdadero en su conjunto de datos. En la práctica, parece que la mejor precisión general generalmente se logra cuando el punto de corte está cerca de P (VERDADERO real).
Vincent
Por lo tanto, el AUC y la mejor precisión general pueden no ser consistentes, dependiendo de la proporción del verdadero valor de su conjunto de datos. En su caso, parece que uno de los clasificadores se centra más en la sensibilidad mientras que el otro en la especificidad. Y en su conjunto de datos actual, la P (VERDADERO) no es del 50%. Por lo tanto, la sensibilidad y la especificidad contribuyen a la precisión general mediante diferentes ponderaciones. En la práctica, el ROC puede brindarnos más información, y nos gustaría elegir el más elegante caso por caso. Por ejemplo, el clasificador de spam puede centrarse más en P (no spam | no spam) para evitar la falta de correos electrónicos importantes.
Vincent
Gracias por tu respuesta. Ahora está mucho más claro. Pero si alguien tiene más ganas de discutir, publique aquí
Samo Jerom
27

Si bien es probable que las dos medidas estadísticas estén correlacionadas, miden diferentes cualidades del clasificador.

AUROC

El área bajo la curva (AUC) es igual a la probabilidad de que un clasificador clasifique una instancia positiva elegida al azar más alta que un ejemplo negativo elegido al azar. Mide la habilidad de los clasificadores para clasificar un conjunto de patrones según el grado al que pertenecen a la clase positiva, pero sin asignar patrones a las clases.

La precisión general también depende de la capacidad del clasificador para clasificar patrones, pero también de su capacidad para seleccionar un umbral en la clasificación utilizada para asignar patrones a la clase positiva si está por encima del umbral y a la clase negativa si está por debajo.

Por lo tanto, es probable que el clasificador con la estadística AUROC más alta (en igualdad de condiciones) también tenga una mayor precisión general, ya que la clasificación de los patrones (que AUROC mide) es beneficiosa tanto para AUROC como para la precisión general. Sin embargo, si un clasificador clasifica bien los patrones, pero selecciona mal el umbral, puede tener un AUROC alto pero una precisión general deficiente.

Uso práctico

En la práctica, me gusta recopilar la precisión general, el AUROC y si el clasificador estima la probabilidad de pertenencia a la clase, la entropía cruzada o la información predictiva. Luego tengo una métrica que mide su capacidad bruta para realizar una clasificación difícil (suponiendo que los costos de clasificación errónea de falsos positivos y falsos negativos sean iguales y que las frecuencias de clase en la muestra sean las mismas que las de uso operativo, ¡una gran suposición!), una métrica que mide la capacidad de clasificar patrones y una métrica que mide qué tan bien se calibra la clasificación como una probabilidad.

Para muchas tareas, los costos de clasificación errónea operativa son desconocidos o variables, o las frecuencias de la clase operativa son diferentes a las de la muestra de capacitación o son variables. En ese caso, la precisión general a menudo es bastante insignificante y el AUROC es un mejor indicador de rendimiento e idealmente queremos un clasificador que genere probabilidades bien calibradas, para que podamos compensar estos problemas en el uso operativo. Esencialmente, qué métrica es importante depende del problema que estamos tratando de resolver.

Dikran Marsupial
fuente
Dikran, ¿tienes una referencia para tu primer párrafo?
Bunder
@Bunder no directamente, el AUROC es la probabilidad de que un patrón + ve seleccionado al azar se clasifique más alto que un patrón -ve seleccionado al azar ( en.wikipedia.org/wiki/… ) y, por lo tanto, es una medida de la calidad de la clasificación , ya que nos gustaría que esa probabilidad sea lo más alta posible.
Dikran Marsupial el
5

¿AUC es realmente una métrica muy útil?

Yo diría que el costo esperado es una medida más apropiada.

Entonces tendría un costo A para todos los falsos positivos y un costo B para todos los falsos negativos. Es fácil que otra clase sea relativamente más cara que otra. Por supuesto, si tiene costos por clasificación falsa en los distintos subgrupos, sería una métrica aún más poderosa.

Al trazar el corte en el eje xy el costo esperado en el eje y, puede ver qué punto de corte minimiza el costo esperado.

Formalmente tiene una pérdida de función de pérdida (corte | datos, costo) que intenta minimizar.

Analista
fuente
3
El costo esperado solo puede evaluarse si conoce los costos de falsos positivos y falsos negativos, que no son necesarios para el cálculo del AUC, que es una buena estadística para usar si los costos son desconocidos o variables.
Dikran Marsupial el
4

Al igual que todas las respuestas se han publicado: ROCy accuracyes fundamental dos conceptos diferentes.

En términos generales, ROCdescribe el poder discriminativo de un clasificador independiente de la distribución de la clase y los costos de error de predicción desigual (costo falso positivo y falso negativo).

Metric like accuracyse calcula en función de la distribución de clase de test dataseto cross-validation, pero esta relación puede cambiar cuando aplica el clasificador a los datos de la vida real, porque la distribución de clase subyacente ha cambiado o es desconocida. Por otro lado, TP ratey los FP rateque se utilizan para construir AUCno se verán afectados por el cambio de distribución de clase.

Ling Ma
fuente