¿Por qué la suma de precisión y retiro no es una medida digna?

12

¿Cuál es la mejor manera de explicar por qué no es una buena medida, por ejemplo, en comparación con F1? $\text{Precision} + \text{Recall}$

precision-recall mate
fuente

¿Qué significaría? ¿Cómo lo interpretarías? ¿Qué te diría realmente?

Matthew Drury

1

Debe cambiar el título reemplazando "Precisión + Recuperación" por "la suma de Precisión y Recuperación" para que quede más claro lo que desea.

g3o2

@ g3o2 ¿estamos hablando de gramática aquí, o me estoy perdiendo algo mejor?

mate

En realidad no, solo notando que también se puede leer Precision & Recall, en particular cuando solo se lee el título.

g3o2

18

No es que sea una mala medida per se, es solo que, por sí solo, el número resultante no representa nada significativo. Sin embargo, está en el camino correcto ... lo que estamos buscando es un promedio combinado de las dos medidas de rendimiento, ya que no queremos tener que elegir entre ellas. $\text{Precision} + \text{Recall}$

Recuerde que la precisión y la recuperación se definen como:

Precision = \frac{True Positive}{Predicted Positive}

$\text{Precision} = \frac{\text{True Positive}}{\text{Predicted Positive}}$

Recall = \frac{True Positive}{Actual Positive}

$\text{Recall} = \frac{\text{True Positive}}{\text{Actual Positive}}$

Dado que ambos tienen denominadores diferentes, sumarlos juntos resulta en algo como esto: ... que no es particularmente útil.

\frac{True Positive (Predicted Positive + Actual Positive)}{Predicted Positive \times Actual Positive}

$\frac{\text{True Positive}\left(\text{Predicted Positive}+\text{Actual Positive}\right)}{\text{Predicted Positive}\times \text{Actual Positive}}$

Volvamos a sumarlos y hagamos un ajuste: multiplíquelos por para que se mantengan en la escala correcta, . Esto está tomando el promedio familiar de ellos. $\frac{1}{2}$ $[0-1]$

\frac{1}{2} \times (\frac{True Positive}{Predicted Positive} + \frac{True Positive}{Actual Positive})

$\frac{1}{2} \times \left( \frac{\text{True Positive}}{\text{Predicted Positive}} + \frac{\text{True Positive}}{\text{Actual Positive}} \right)$

Entonces, tenemos dos cantidades, que tienen el mismo numerador, pero diferentes denominadores y nos gustaría tomar el promedio de ellas. qué hacemos? Bueno, podríamos darles la vuelta, tomar su inverso. Entonces podrías agregarlos juntos. Entonces están "al derecho", tomas el inverso nuevamente.

Este proceso de invertir, y luego invertir nuevamente, convierte una media "regular" en una media armónica. Resulta que la media armónica de precisión y recuperación es la estadística F1. La media armónica se usa generalmente en lugar de la media aritmética estándar cuando se trata de tasas, como lo hacemos aquí.

Al final, el estadístico F1 es solo el promedio de precisión y recuperación, y lo usa porque no desea elegir uno u otro para evaluar el rendimiento del modelo.

David Ciani
fuente

2

¡Muchas gracias por desarrollar amablemente la media armónica a partir de la media algebraica! pero lo que probablemente no me sienta muy firmemente, es la parte donde dices "que no es particularmente útil". En ese sentido, he comentado a continuación sobre las otras dos respuestas ahora. En caso de que vaya un paso más allá ... Por ejemplo, imagine que deseo elegir el mejor clasificador entre un grupo de clasificadores probados en el mismo conjunto de datos.

mate

@matt, el uso de cualquier medida combinada llevará su elección de modelo a un cierto punto pero no más allá. Dos modelos que tienen el mismo valor F1 pueden mostrar valores de recuperación y precisión completamente opuestos. Por lo tanto, para que F1 sea el mismo, tendrá que elegir entre Recuperar y Precisión.

g3o2

4

La respuesta corta es: no esperaría que la suma de dos porcentajes que tienen dos denominadores diferentes tenga un significado particular. Por lo tanto, el enfoque para tomar una medida promedio como F1, F2 o F0.5. Estos últimos conservan al menos la propiedad de un porcentaje. ¿Pero qué hay de su significado?

La belleza de Precision and Recall como medidas separadas es su facilidad de interpretación y el hecho de que se pueden enfrentar fácilmente con los objetivos comerciales del modelo. La precisión mide el porcentaje de true positivesfuera de los casos clasificados según positiveel modelo. La recuperación mide el porcentaje de true positivesencontrado por el modelo de todos los truecasos. Para muchos problemas, tendrá que elegir entre optimizar Precisión o Recuperación.

Cualquier medida promedio pierde la interpretación anterior y se reduce a la medida que prefiera más. F1 significa que no sabes si prefieres Recordar o Precisión, o si asignas el mismo peso a cada uno de ellos. Si considera que la recuperación es más importante que la precisión, también debe asignarle un mayor peso en el cálculo promedio (por ejemplo, F2) y viceversa (por ejemplo, F0.5).

g3o2
fuente

3

Agregar los dos es una mala medida. Obtendrá una puntuación de al menos 1 si marca todo como positivo, ya que es un retiro del 100% por definición. Y obtendrá un pequeño golpe de precisión además de eso. La media geométrica utilizada en F1 enfatiza el enlace débil, ya que es multiplicativo; Al menos tienes que hacerlo bien con precisión y recuperación para obtener una puntuación decente en la F1.

Ben Ogorek
fuente

En realidad, es este énfasis exacto del eslabón débil, lo que he encontrado superfluo cuando Precision y Recall son sensibles en lugar de nerviosos. Cuando ambos no son nerviosos, no estoy seguro de ver el valor agregado de una métrica que enfatiza la similitud entre ellos, o ponerlo de manera diferente por el tamaño de su diferencia. Esta propiedad exacta ha motivado en parte mi pregunta original aquí.

mate

Suena como trabajo extra para mí. Si valora un punto porcentual de recuperación tanto como uno de precisión, entonces supongo que su medida es la que debe usar. Pero no puedo imaginar que lo harías. La recuperación probablemente dominará, incluso si reduce los rangos. Podrías escalar el recuerdo para ser manzanas con manzanas con precisión, pero eso es nuevamente más trabajo y hace que la interpretación sea menos clara.

Ben Ogorek

1

No estoy seguro de por qué suponer que el recuerdo debería dominar (?), Pero escalar el recuerdo para ser manzanas con manzanas con precisión podría ser una discusión relacionada interesante aquí o en otro lugar: un puntero en la dirección correcta podría ser bueno tener :) y de lo contrario gracias de nuevo

mate

3

La puntuación F1 es especialmente valiosa en caso de probabilidades muy asimétricas.

Considere el siguiente ejemplo: examinamos una enfermedad rara pero peligrosa. Supongamos que en una ciudad de 1,000,000 de personas solo 100 están infectadas.

La prueba A detecta todos estos 100 positivos. Sin embargo, también tiene una tasa de falsos positivos del 50%: muestra erróneamente que otras 500,000 personas están enfermas.

Mientras tanto, la prueba B omite el 10% de los infectados, pero solo da 1,000 falsos positivos (0.1% tasa de falsos positivos)

Calculemos los puntajes. Para la prueba A, la precisión será efectivamente 0; la recuperación será exactamente 1. Para la prueba B, la precisión seguirá siendo bastante pequeña, aproximadamente 0.01. El retiro será igual a 0.9.

Si sumamos o tomamos ingenuamente la media aritmética de precisión y recuperación, esto dará 1 (0.5) para la prueba A y 0.91 (0.455) para la prueba B. Entonces, la prueba A parecería marginalmente mejor.

Sin embargo, si miramos desde una perspectiva práctica, la prueba A no vale nada: si una persona es positiva, ¡su probabilidad de estar realmente enferma es de 1 en 50,000! La prueba B tiene un significado más práctico: puede llevar a 1.100 personas al hospital y observarlas de cerca. Esto se refleja con precisión en la puntuación F1: para la prueba A estará cerca de 0.0002, para la prueba B: (0.01 * 0.9) / (0.01 + 0.9) = 0.0098, que todavía es bastante pobre, pero aproximadamente 50 veces mejor.

Esta coincidencia entre el valor del puntaje y la importancia práctica es lo que hace que el puntaje F1 sea valioso.

imiltemp
fuente

Gracias. Tal vez no me he sumergido lo suficiente en el caso, pero ¿esta aclaración no depende de la ventaja pragmática de asignar recursos a los "positivos" en un dominio de la vida real donde el objetivo es detectar un resultado (positivo)? este no es siempre el caso, que el objetivo es detectar un resultado, ¿verdad? a veces solo quieres saber si es una manzana o un par, y ambos tipos de error tienen el mismo costo práctico en el mundo real.

mate

Sobre todo, lo que no veo es cómo esta propiedad de ser "mejor" se adapta a casos en los que la diferencia (absoluta) entre precisión y recuperación es menos patológica. Tal vez la intuición es inherentemente allí, pero no estoy allí todavía ...

Matt

1

En general, maximizar la media geométrica enfatiza que los valores son similares. Por ejemplo, tome dos modelos: el primero tiene (precisión, recuperación) = (0.8, 0.8) y el segundo tiene (precisión, recuperación) = (0.6, 1.0). Usando la media algebraica, ambos modelos serían equivalentes. Usando la media geométrica, el primer modelo es mejor porque no cambia la precisión por el recuerdo.

cuadrado redondo
fuente

1

Muchas gracias. Sin embargo, en términos prácticos, no veo ninguna preferencia universalmente aplicable entre, por ejemplo, (0.8, 0.8) y (0.7, 0.9). Tal vez hayas insinuado algo más profundo en "canjear Precisión por retiro del mercado", que no estoy aprendiendo (todavía). Para mí, promediar algebraicamente dos tipos de error, simplemente da el promedio más simple de ellos, sin ningún sesgo de similitud. Por ejemplo, podría usar la simple suma de Precisión y Recuperación para calcular cuál de los dos clasificadores me da menos error.

mate

Podemos llevar esto al extremo. Digamos que tiene un sistema que tiene un (precisión, recuperación) = (0.6, 0.6). Eso significa que cuando dice "sí" es correcto el 60% del tiempo y capta correctamente el 60% de los eventos "sí". Ahora comparemos esto con un sistema que tiene (0.3, 1). Esto tiene una mejor media algebraica, pero ¿qué está haciendo? Que es la captura de todos los eventos "sí", pero también está diciendo "sí" incorrectamente un montón . ¿Es bueno eso? ¿Es tan malo? Depende de por qué está construyendo el sistema. ¿Qué acción tomará cuando vea una predicción de "sí"? ¿Cuál es la consecuencia de perderse un evento "sí"?

roundsquare

1

Ninguna de estas medidas son reglas de puntaje de precisión adecuadas

Frank Harrell

@roundsquare muchas gracias, pero para casos no patológicos, donde ambos no están cerca de 0 y 1, ¡probablemente necesito ayuda para ver el beneficio de enfatizar la similitud entre los dos, en la medida final!

mate

@FrankHarrell gracias por señalar "el elefante en la habitación"

mate

¿Por qué la suma de precisión y retiro no es una medida digna?

Respuestas: