¿Es f-measure sinónimo de precisión?

10

Entiendo que la medida f (basada en la precisión y el recuerdo) es una estimación de la precisión de un clasificador. Además, la medida f se ve favorecida sobre la precisión cuando tenemos un conjunto de datos desequilibrado. Tengo una pregunta simple (que trata más sobre el uso de la terminología correcta que sobre la tecnología). Tengo un conjunto de datos desequilibrado y uso f-measure en mis experimentos. Estoy a punto de escribir un artículo que NO es para una conferencia de aprendizaje automático / minería de datos. Por lo tanto, ¿puedo referirme a f-measure como sinónimo de precisión en este contexto? Por ejemplo, tengo una medida f de 0.82, entonces ¿puedo decir que mi clasificador logra 82% de predicciones precisas?

Annamalai N
fuente
Sería mejor introducir la medida f si la usa. Sustituir los dos no es correcto en mi punto de vista. En su caso, si su precisión es del 99%, obtendrá predicciones precisas del 99%, sin importar cuál sea su medida f, y podría llevar a los lectores a cometer errores.
AdrienNK
@AdrienNK: 99% de precisión no implica 99% de predicciones correctas a menos que las frecuencias relativas de los casos de prueba sean las mismas que en la situación real de la aplicación.
Cbeleites descontento con SX
@cbeleites tienes razón, lo sé, pero a menudo los casos de prueba se emiten desde la misma distribución (bueno, tal vez esa es la visión sesgada que tengo de ella porque rara vez tuve que trabajar con datos en los que ese no era el caso)
AdrienNK
@AdrienNK: Soy químico analítico que trabaja para diagnósticos médicos. La prevalencia de la enfermedad en cuestión puede variar en órdenes de magnitud entre diferentes subpoblaciones de pacientes. Vea, por ejemplo, la discusión de los diferentes PPV en la segunda mitad de este artículo: nature.com/news/2011/110323/full/471428a.html
cbeleites descontento con SX
2
Esa fue una lectura fascinante, gracias por llamar mi atención.
AdrienNK

Respuestas:

13

En primer lugar, encuentro que la "precisión" a veces es un poco engañosa, ya que se refiere a cosas distintas:

El término precisión en general para evaluar sistemas o métodos (soy químico analítico) se refiere al sesgo de las predicciones, es decir, responde a la pregunta de qué tan buenas son las predicciones en promedio.

TPAG+Tnorteunall Cunasmis

El puntaje F a menudo se introduce como media armónica de precisión y recuerdo (o valor predictivo positivo y sensibilidad). Para su pregunta, creo que es útil explicarlo un poco más y simplificarlo:

F=2pagrmiCyosyoonortermiCunallpagrmiCyosyoonorte+rmiCunall=2TPAGunall PAGTPAGunallTTPAGunall PAG+TPAGunallT=2TPAG2unall PAGunallTTPAGunall Tunall PAGunallT+TPAGunall PAGunall PAGunallT=2 TPAG2TPAGunall T+TPAGunall PAG=2 TPAGunall T+unall PAG

La última expresión no es una fracción de nada que pueda pensar como un cierto grupo de casos de prueba. En particular, se espera una superposición (fuerte) entre los casos VERDADERO y POSITIVO. Esto me impediría expresar un puntaje F como porcentaje, ya que ese tipo implica una proporción de casos. En realidad, creo que advertiría al lector que el puntaje F no tiene esa interpretación.

cbeleites descontentos con SX
fuente
F1
0

Respuesta rápida:

No, la F-measurefórmula no consta de TNfactor y es útil para recuperar problemas (doc) .

Por lo tanto, es ( F-measure) el enfoque correcto para evaluar los conjuntos de datos desequilibrados o en el caso de problemas de recuperación en lugar de accuracyy ROC.

Accuracy = (TP+TN) / (TP+FP+FN+TN)

F1_Score = 2*(Recall * Precision) / (Recall + Precision)
# or
F1_Score = 2*TP / (2*TP + FP + FN)

[ NOTA ]:

Precision = TP / (TP+FP)

Recall = TP / (TP+FN)
Benyamin Jafari
fuente