Me gustaría saber cómo interpretar una diferencia de valores de medida f. Sé que la medida f es una media equilibrada entre precisión y recuperación, pero estoy preguntando sobre el significado práctico de una diferencia en las medidas F.
Por ejemplo, si un clasificador C1 tiene una precisión de 0.4 y otro clasificador C2 una precisión de 0.8, entonces podemos decir que C2 ha clasificado correctamente el doble de ejemplos de prueba en comparación con C1. Sin embargo, si un clasificador C1 tiene una medida F de 0.4 para cierta clase y otro clasificador C2 una medida F de 0.8, ¿qué podemos decir acerca de la diferencia en el rendimiento de los 2 clasificadores? ¿Podemos decir que C2 ha clasificado X más instancias correctamente que C1?
Respuestas:
No puedo pensar en un significado intuitivo de la medida F, porque es solo una métrica combinada. Lo que es más intuitivo que F-mesure, por supuesto, es la precisión y el recuerdo.
Pero usando dos valores, a menudo no podemos determinar si un algoritmo es superior a otro. Por ejemplo, si un algoritmo tiene mayor precisión pero menor recuperación que otro, ¿cómo puede saber qué algoritmo es mejor?
Si tienes un objetivo específico en mente como "La precisión es el rey". No me importa mucho recordar ', entonces no hay problema. Mayor precisión es mejor. Pero si no tiene un objetivo tan fuerte, querrá una métrica combinada. Esa es la medida F. Al usarlo, comparará algunos de precisión y algunos de recuperación.
La curva ROC a menudo se dibuja indicando la medida F. Puede encontrar este artículo interesante ya que contiene una explicación sobre varias medidas, incluidas las curvas ROC: http://binf.gmu.edu/mmasso/ROC101.pdf
fuente
La importancia del puntaje F1 es diferente según el escenario. Supongamos que la variable objetivo es una etiqueta binaria.
fuente
F-measure tiene un significado intuitivo. Le indica qué tan preciso es su clasificador (cuántas instancias clasifica correctamente), así como qué tan robusto es (no pierde un número significativo de instancias).
Con alta precisión pero baja recuperación, su clasificador es extremadamente preciso, pero pierde un número significativo de instancias que son difíciles de clasificar. Esto no es muy útil.
Echa un vistazo a este histograma. Ignora su propósito original.
Hacia la derecha, obtienes alta precisión, pero baja recuperación. Si solo selecciono instancias con una puntuación superior a 0.9, mis instancias clasificadas serán extremadamente precisas, sin embargo, habré perdido un número significativo de instancias. Los experimentos indican que el punto óptimo aquí es alrededor de 0.76, donde la medida F es 0.87.
fuente
La medida F es la media armónica de su precisión y memoria. En la mayoría de las situaciones, tiene una compensación entre precisión y recuperación. Si optimiza su clasificador para aumentar uno y desfavorecer al otro, la media armónica disminuye rápidamente. Sin embargo, es mayor cuando tanto la precisión como la recuperación son iguales.
Dadas las medidas F de 0.4 y 0.8 para sus clasificadores, puede esperar que estos sean los valores máximos alcanzados al sopesar la precisión contra la recuperación.
Para referencia visual, eche un vistazo a esta figura de Wikipedia :
La medida F es H , A y B son memoria y precisión. Puede aumentar uno, pero luego el otro disminuye.
fuente
La fórmula para la medida F (F1, con beta = 1) es la misma que proporciona la resistencia equivalente compuesta de dos resistencias colocadas en paralelo en física (olvidando el factor 2).
Esto podría darle una posible interpretación, y puede pensar en resistencias electrónicas o térmicas. Esta analogía definiría la medida F como la resistencia equivalente formada por la sensibilidad y la precisión colocadas en paralelo.
Para la medida F, el máximo posible es 1, y pierde resistencia tan pronto como uno de los dos también pierde resistencia (es decir, obtenga un valor por debajo de 1). Si desea comprender mejor esta cantidad y su dinámica, piense en el fenómeno físico. Por ejemplo, parece que la medida F <= max (sensibilidad, precisión).
fuente
fuente
fuente
El significado intuitivo más cercano de la puntuación f1 se percibe como la media del recuerdo y la precisión. Vamos a aclararlo por ti:
En una tarea de clasificación, puede estar planeando construir un clasificador con alta precisión Y recuperación. Por ejemplo, un clasificador que dice si una persona es honesta o no.
Para mayor precisión, generalmente puede decir con precisión cuántas personas honestas hay en un grupo determinado. En este caso, cuando se preocupa por la alta precisión, asume que puede clasificar erróneamente a una persona mentirosa como honesta pero no con frecuencia. En otras palabras, aquí está tratando de identificar al mentiroso de honesto como un grupo completo.
Sin embargo, para recordar, usted estará realmente preocupado si cree que una persona mentirosa es honesta. Para usted, esta será una gran pérdida y un gran error y no querrá volver a hacerlo. Además, está bien si clasificó a alguien honesto como mentiroso, pero su modelo nunca (o sobre todo no debe) reclamar a una persona mentirosa como honesta. En otras palabras, aquí te estás enfocando en una clase específica y estás tratando de no cometer un error al respecto.
Ahora, tomemos el caso en el que desea que su modelo (1) identifique con precisión al honesto de un mentiroso (precisión) (2) identifique a cada persona de ambas clases (recuerdo). Lo que significa que seleccionará el modelo que funcionará bien en ambas métricas.
La decisión de selección de modelo intentará evaluar cada modelo en función de la media de las dos métricas. F-Score es el mejor que puede describir esto. Echemos un vistazo a la fórmula:
Recordar: p = tp / (tp + fp)
Recordar: r = tp / (tp + fn)
F-score: fscore = 2 / (1 / r + 1 / p)
Como puede ver, cuanto mayor sea el recuerdo Y la precisión, mayor será el puntaje F.
fuente
Sabiendo que el puntaje F1 es un medio armónico de precisión y recuerdo, a continuación hay un breve resumen sobre ellos.
Yo diría que Recall se trata más de falsos negativos, es decir, tener un Recall más alto significa que hay menos NEGATIVAS FALSAS .
Por mucho menos FN o Zero FN significa, su predicción del modelo es realmente buena.
Lo mismo aquí, Menos o cero falsos positivos significa que la predicción del modelo es realmente buena.
fuente