¿Por qué se prefiere la medida F para las tareas de clasificación?

8

¿Por qué la medida F se usa generalmente para tareas de clasificación (supervisadas), mientras que la medida G (o índice de Fowlkes-Mallows) se usa generalmente para tareas de agrupación (sin supervisión)?

La medida F es la media armónica de la precisión y el recuerdo .

La medida G (o índice de Fowlkes-Mallows) es la media geométrica de la precisión y el recuerdo .

A continuación se muestra una trama de los diferentes medios.

ingrese la descripción de la imagen aquí

F1 (armónico)=2precisionrecallprecision+recall

Geométrico=precisionrecall

Aritmética=precision+recall2

La razón por la que pregunto es que necesito decidir qué promedio usar en una tarea NLG, donde medí BLEU y ROUGE (donde BLEU es equivalente a precisión y ROUGE para recordar). ¿Cómo debo calcular la media de estos puntajes?

Bruno Lubascher
fuente
¡Tal vez es así como va la definición!
Aditya
1
@Aditya, tienes razón, solo fueron preguntas mal formuladas sobre la definición. Lo edité reformulando en algo más concreto.
Bruno Lubascher

Respuestas:

3

Se prefiere la puntuación Fı a la precisión de clasificación simple para contrarrestar el problema de los conjuntos de datos desequilibrados; Si la cosa que estás buscando ocurre muy raramente, entonces un clasificador ingenuo siempre puede decir que no y parece estar funcionando muy bien. Una variante de Fı es Fß, donde

Fß = (1 + ß²) × ​​[(P × R) ÷ ((ß² × P) + R)]

Varíe ß para equilibrar la precisión y la recuperación. En cuanto a por qué F o G, creo que es empírico: ¿no dice si está clasificando o agrupando en su propia aplicación?

Gayo
fuente
1
Gracias por la respuesta, pero creo que extrañaste mi pregunta. No quiero comparar F1 versus precisión simple. , en cambio, me refiero a comparar las medias armónicas vs geométricas vs aritméticas . No estoy haciendo una clasificación o agrupación tradicional, tengo una tarea de NLG , que se mide en BLEU y ROUGE que podría promediarse con uno de los medios, pero no estoy seguro de cuál elegir.
Bruno Lubascher
-1

Si Precision and Recall son similares, F1 es una buena medida para comparar diferentes modelos.

Corto y dulce :)

FrancoSwiss
fuente
No veo cómo incluso intentaste responder a mi pregunta ...
Bruno Lubascher