Construí una curva ROC para un sistema de diagnóstico. El área bajo la curva se estimó entonces no paramétricamente como AUC = 0,89. Cuando intenté calcular la precisión en el umbral óptimo (el punto más cercano al punto (0, 1)), ¡obtuve la precisión del sistema de diagnóstico de 0,8, que es menor que el AUC! Cuando verifiqué la precisión en otra configuración de umbral que está muy lejos del umbral óptimo, obtuve una precisión igual a 0,92. ¿Es posible obtener la precisión de un sistema de diagnóstico en el mejor ajuste de umbral más bajo que la precisión en otro umbral y también más bajo que el área bajo la curva? Ver la imagen adjunta por favor.
roc
reliability
accuracy
auc
Ali Sultan
fuente
fuente
Respuestas:
Para decirlo de otra manera, dado que tiene muchas más muestras negativas, si el clasificador predice 0 todo el tiempo, seguirá obteniendo una alta precisión con FPR y TPR cerca de 0.
Lo que llama ajuste de umbral óptimo (el punto más cercano al punto (0, 1)) es solo una de las muchas definiciones de umbral óptimo: no necesariamente optimiza la precisión.
fuente
Entonces,ACC TPR FPR
Vea este ejemplo, los negativos superan a los positivos 1000: 1.
Ver, cuando
fpr
es 0acc
es máximo.Y aquí está el ROC, con precisión anotada.
La conclusión es que puede optimizar la precisión de una manera que resulte en un modelo falso (
tpr
= 0 en mi ejemplo). Esto se debe a que la precisión no es una buena métrica, la dicotomización del resultado debe dejarse en manos del responsable de la toma de decisiones.Se dice que el umbral óptimo es elTPR=1−FPR porque de esa manera ambos errores tienen el mismo peso, incluso si la precisión no es óptima.
Cuando tiene clases desequilibradas, la optimización de la precisión puede ser trivial (por ejemplo, predecir a todos como la clase mayoritaria).
Área bajo la curva de ROC vs. precisión general
Precisión y área bajo la curva ROC (AUC)
Y lo más importante de todo: ¿por qué AUC es más alto para un clasificador que es menos preciso que para uno que es más preciso?
fuente