¿Por qué la medida F se usa generalmente para tareas de clasificación (supervisadas), mientras que la medida G (o índice de Fowlkes-Mallows) se usa generalmente para tareas de agrupación (sin supervisión)?
La medida F es la media armónica de la precisión y el recuerdo .
La medida G (o índice de Fowlkes-Mallows) es la media geométrica de la precisión y el recuerdo .
A continuación se muestra una trama de los diferentes medios.
F1 (armónico)
Geométrico
Aritmética
La razón por la que pregunto es que necesito decidir qué promedio usar en una tarea NLG, donde medí BLEU y ROUGE (donde BLEU es equivalente a precisión y ROUGE para recordar). ¿Cómo debo calcular la media de estos puntajes?
machine-learning
evaluation
scoring
metric
nlg
Bruno Lubascher
fuente
fuente
Respuestas:
Se prefiere la puntuación Fı a la precisión de clasificación simple para contrarrestar el problema de los conjuntos de datos desequilibrados; Si la cosa que estás buscando ocurre muy raramente, entonces un clasificador ingenuo siempre puede decir que no y parece estar funcionando muy bien. Una variante de Fı es Fß, donde
Fß = (1 + ß²) × [(P × R) ÷ ((ß² × P) + R)]
Varíe ß para equilibrar la precisión y la recuperación. En cuanto a por qué F o G, creo que es empírico: ¿no dice si está clasificando o agrupando en su propia aplicación?
fuente
Si Precision and Recall son similares, F1 es una buena medida para comparar diferentes modelos.
Corto y dulce :)
fuente