¿Cómo interpretar los valores de la medida F?

41

Me gustaría saber cómo interpretar una diferencia de valores de medida f. Sé que la medida f es una media equilibrada entre precisión y recuperación, pero estoy preguntando sobre el significado práctico de una diferencia en las medidas F.

Por ejemplo, si un clasificador C1 tiene una precisión de 0.4 y otro clasificador C2 una precisión de 0.8, entonces podemos decir que C2 ha clasificado correctamente el doble de ejemplos de prueba en comparación con C1. Sin embargo, si un clasificador C1 tiene una medida F de 0.4 para cierta clase y otro clasificador C2 una medida F de 0.8, ¿qué podemos decir acerca de la diferencia en el rendimiento de los 2 clasificadores? ¿Podemos decir que C2 ha clasificado X más instancias correctamente que C1?

AM2
fuente
2
No estoy seguro de que pueda decir mucho ya que la medida F es función de precisión y recuperación: en.wikipedia.org/wiki/F1_score . Sin embargo, puede hacer los cálculos y mantener constante una (ya sea precisión o recuperación) y decir algo sobre la otra.
Nick

Respuestas:

41

No puedo pensar en un significado intuitivo de la medida F, porque es solo una métrica combinada. Lo que es más intuitivo que F-mesure, por supuesto, es la precisión y el recuerdo.

Pero usando dos valores, a menudo no podemos determinar si un algoritmo es superior a otro. Por ejemplo, si un algoritmo tiene mayor precisión pero menor recuperación que otro, ¿cómo puede saber qué algoritmo es mejor?

Si tienes un objetivo específico en mente como "La precisión es el rey". No me importa mucho recordar ', entonces no hay problema. Mayor precisión es mejor. Pero si no tiene un objetivo tan fuerte, querrá una métrica combinada. Esa es la medida F. Al usarlo, comparará algunos de precisión y algunos de recuperación.

La curva ROC a menudo se dibuja indicando la medida F. Puede encontrar este artículo interesante ya que contiene una explicación sobre varias medidas, incluidas las curvas ROC: http://binf.gmu.edu/mmasso/ROC101.pdf

Minkoo Seo
fuente
23

La importancia del puntaje F1 es diferente según el escenario. Supongamos que la variable objetivo es una etiqueta binaria.

  • Clase equilibrada: en esta situación, el puntaje F1 se puede ignorar efectivamente, la tasa de clasificación errónea es clave.
  • Clase desequilibrada, pero ambas clases son importantes: si la distribución de la clase es muy sesgada (como 80:20 o 90:10), un clasificador puede obtener una baja tasa de clasificación errónea simplemente eligiendo la clase mayoritaria. En tal situación, elegiría el clasificador que obtiene altas puntuaciones de F1 en ambas clases, así como una baja tasa de clasificación errónea. Se debe pasar por alto un clasificador que obtiene bajas puntuaciones en F1.
  • Clase desequilibrada, pero una clase si es más importante que la otra. Por ejemplo, en la detección de fraude, es más importante etiquetar correctamente una instancia como fraudulenta, en lugar de etiquetar la no fraudulenta. En este caso, elegiría el clasificador que tiene un buen puntaje F1 solo en la clase importante . Recuerde que el puntaje F1 está disponible por clase.
shark8me
fuente
9

F-measure tiene un significado intuitivo. Le indica qué tan preciso es su clasificador (cuántas instancias clasifica correctamente), así como qué tan robusto es (no pierde un número significativo de instancias).

Con alta precisión pero baja recuperación, su clasificador es extremadamente preciso, pero pierde un número significativo de instancias que son difíciles de clasificar. Esto no es muy útil.

Echa un vistazo a este histograma. ingrese la descripción de la imagen aquíIgnora su propósito original.

Hacia la derecha, obtienes alta precisión, pero baja recuperación. Si solo selecciono instancias con una puntuación superior a 0.9, mis instancias clasificadas serán extremadamente precisas, sin embargo, habré perdido un número significativo de instancias. Los experimentos indican que el punto óptimo aquí es alrededor de 0.76, donde la medida F es 0.87.

lostsoul29
fuente
5

La medida F es la media armónica de su precisión y memoria. En la mayoría de las situaciones, tiene una compensación entre precisión y recuperación. Si optimiza su clasificador para aumentar uno y desfavorecer al otro, la media armónica disminuye rápidamente. Sin embargo, es mayor cuando tanto la precisión como la recuperación son iguales.

Dadas las medidas F de 0.4 y 0.8 para sus clasificadores, puede esperar que estos sean los valores máximos alcanzados al sopesar la precisión contra la recuperación.

Para referencia visual, eche un vistazo a esta figura de Wikipedia :

ingrese la descripción de la imagen aquí

La medida F es H , A y B son memoria y precisión. Puede aumentar uno, pero luego el otro disminuye.

Willi Raschkowski
fuente
Descubrí que la visualización de "Escaleras cruzadas" es un poco más sencilla: para mí, hace que la igualdad de A = B resulte en la mayor H más intuitiva
Coruscate5
3

La fórmula para la medida F (F1, con beta = 1) es la misma que proporciona la resistencia equivalente compuesta de dos resistencias colocadas en paralelo en física (olvidando el factor 2).

Esto podría darle una posible interpretación, y puede pensar en resistencias electrónicas o térmicas. Esta analogía definiría la medida F como la resistencia equivalente formada por la sensibilidad y la precisión colocadas en paralelo.

Para la medida F, el máximo posible es 1, y pierde resistencia tan pronto como uno de los dos también pierde resistencia (es decir, obtenga un valor por debajo de 1). Si desea comprender mejor esta cantidad y su dinámica, piense en el fenómeno físico. Por ejemplo, parece que la medida F <= max (sensibilidad, precisión).

Bardamu
fuente
3

Fβ-1/ /β2

PAGS=TPAGSTPAGS+FPAGS
R=TPAGSTPAGS+Fnorte
α
α1-RR+1-PAGSPAGS.
-αFββ2
William G. Dearden
fuente
1

Fβ=1/ /((β2/ /(β2+1))1/ /r+(1/ /(β2+1))1/ /pags)
β2<1pagsFβ
LittleYUYU
fuente
0

El significado intuitivo más cercano de la puntuación f1 se percibe como la media del recuerdo y la precisión. Vamos a aclararlo por ti:

En una tarea de clasificación, puede estar planeando construir un clasificador con alta precisión Y recuperación. Por ejemplo, un clasificador que dice si una persona es honesta o no.

Para mayor precisión, generalmente puede decir con precisión cuántas personas honestas hay en un grupo determinado. En este caso, cuando se preocupa por la alta precisión, asume que puede clasificar erróneamente a una persona mentirosa como honesta pero no con frecuencia. En otras palabras, aquí está tratando de identificar al mentiroso de honesto como un grupo completo.

Sin embargo, para recordar, usted estará realmente preocupado si cree que una persona mentirosa es honesta. Para usted, esta será una gran pérdida y un gran error y no querrá volver a hacerlo. Además, está bien si clasificó a alguien honesto como mentiroso, pero su modelo nunca (o sobre todo no debe) reclamar a una persona mentirosa como honesta. En otras palabras, aquí te estás enfocando en una clase específica y estás tratando de no cometer un error al respecto.

Ahora, tomemos el caso en el que desea que su modelo (1) identifique con precisión al honesto de un mentiroso (precisión) (2) identifique a cada persona de ambas clases (recuerdo). Lo que significa que seleccionará el modelo que funcionará bien en ambas métricas.

La decisión de selección de modelo intentará evaluar cada modelo en función de la media de las dos métricas. F-Score es el mejor que puede describir esto. Echemos un vistazo a la fórmula:

Recordar: p = tp / (tp + fp)

Recordar: r = tp / (tp + fn)

F-score: fscore = 2 / (1 / r + 1 / p)

Como puede ver, cuanto mayor sea el recuerdo Y la precisión, mayor será el puntaje F.

Cs20
fuente
0

Sabiendo que el puntaje F1 es un medio armónico de precisión y recuerdo, a continuación hay un breve resumen sobre ellos.

Yo diría que Recall se trata más de falsos negativos, es decir, tener un Recall más alto significa que hay menos NEGATIVAS FALSAS .

Recordar=tpagstpags+Fnorte

Por mucho menos FN o Zero FN significa, su predicción del modelo es realmente buena.

Precisión=tpagstpags+Fpags

Lo mismo aquí, Menos o cero falsos positivos significa que la predicción del modelo es realmente buena.

Anroop
fuente