F1 / Dice-Score vs IoU

24

Estaba confundido acerca de las diferencias entre el puntaje F1, el puntaje Dice y el IoU (intersección sobre unión). Por ahora descubrí que F1 y Dice significan lo mismo (¿verdad?) Y IoU tiene una fórmula muy similar a las otras dos.

  • F1 / Dados:
    2TPAGS2TPAGS+FPAGS+Fnorte
  • IoU / Jaccard:
    TPAGSTPAGS+FPAGS+Fnorte

¿Hay alguna diferencia práctica u otras cosas que valga la pena señalar, excepto que F1 pesa más los verdaderos positivos? ¿Hay una situación en la que usaría uno pero no el otro?

pietz
fuente
Aparentemente, el coeficiente Jaccard también es el mismo que IoU
pietz
Me interesaría especialmente si algunas de estas (ahora 4) mediciones solo están destinadas a datos binarios.
pietz

Respuestas:

38

Estás en el camino correcto.

F/ /2yooUF

yooU/ /F=1/ /2+yooU/ /2

Pero hay una declaración más fuerte que se puede hacer para la aplicación típica de la clasificación a la máquina de aprendizaje. Para cualquier "verdad fundamental" fija, las dos métricas siempre están positivamente correlacionadas. Es decir que si el clasificador A es mejor que B bajo una métrica, también es mejor que el clasificador B bajo la otra métrica.

Es tentador concluir que las dos métricas son funcionalmente equivalentes, por lo que la elección entre ellas es arbitraria, ¡pero no tan rápida! El problema surge cuando se toma el puntaje promedio sobre un conjunto de inferencias . Entonces, la diferencia surge al cuantificar cuánto peor es el clasificador B que A para cualquier caso dado.

En general, la métrica IoU tiende a penalizar instancias individuales de mala clasificación más que la puntuación F cuantitativamente, incluso cuando ambos pueden estar de acuerdo en que esta instancia es mala. De manera similar a cómo L2 puede penalizar los errores más grandes más que L1, la métrica de IoU tiende a tener un efecto de "cuadratura" en los errores en relación con el puntaje F. Por lo tanto, la puntuación F tiende a medir algo más cercano al rendimiento promedio, mientras que la puntuación IoU mide algo más cercano al rendimiento en el peor de los casos.

Supongamos, por ejemplo, que la gran mayoría de las inferencias son moderadamente mejores con el clasificador A que B, pero algunas de ellas son significativamente peores con el clasificador A. Puede ser el caso entonces que la métrica F favorece al clasificador A mientras que la métrica IoU favorece clasificador B.

Sin duda, estas dos métricas son mucho más parecidas que diferentes. Pero ambos sufren de otra desventaja desde el punto de vista de tomar promedios de estos puntajes en muchas inferencias: ambos exageran la importancia de los conjuntos con conjuntos positivos de verdad real poco o nada real. En el ejemplo común de segmentación de imágenes, si una imagen solo tiene un solo píxel de alguna clase detectable, y el clasificador detecta ese píxel y otro píxel, su puntaje F es de 2/3 y la IoU es aún peor en 1 / 2) Errores triviales como estos pueden dominar seriamente el puntaje promedio tomado sobre un conjunto de imágenes. En resumen, pondera cada error de píxel de forma inversamente proporcional al tamaño del conjunto seleccionado / relevante en lugar de tratarlos por igual.

do0 0do1

willem
fuente
willem, no podría haber pedido una mejor respuesta. muchas gracias por tomarte el tiempo
pietz
55
Intenté su enfoque de error total y solo quería agregar que no funciona bien con desequilibrios constantes entre positivos y negativos. Imagine un conjunto de datos completo de imágenes donde solo un píxel constituye la segmentación de la verdad básica. Las redes neuronales pueden aprender con bastante rapidez que una predicción vacía siempre es 99.9% precisa utilizando el error total. Al usar IoU o DSC, presionamos a la red para que encuentre una segmentación debido a las mismas razones que mencionó anteriormente. Entonces, al final, depende mucho el problema.
pietz
1
¿Alguien puede ayudarme a conciliar las siguientes dos declaraciones ?: 1: "That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."y 2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."
Matt Kleinsmith
1
El primero se refiere a una puntuación de una sola inferencia, y el segundo se refiere a una puntuación promedio sobre un conjunto de inferencias (por ejemplo, un conjunto de imágenes).
willem