¿Es el coeficiente Dice lo mismo que la precisión?

Me encuentro con el coeficiente de dados para la similitud de volumen ( https://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%93Dice_coefficient ) y precisión ( https://en.wikipedia.org/wiki/Accuracy_and_precision )

Me parece que estas dos medidas son las mismas. ¿Alguna idea?

descriptive-statistics roc accuracy precision-recall auc RockTheStar
fuente

Esto proporciona toda la información stats.stackexchange.com/questions/195006/…

rank1

@ rank1 Gracias. Quiero aclarar: ¿no es ese el enlace a mi pregunta :)

RockTheStar

Uy, este: ncbi.nlm.nih.gov/pmc/articles/PMC4533825

rank1

Respuestas:

Estos no son lo mismo y a menudo se usan en diferentes contextos. La puntuación Dice se usa a menudo para cuantificar el rendimiento de los métodos de segmentación de imágenes . Ahí anotas alguna región de verdad fundamental en tu imagen y luego haces un algoritmo automatizado para hacerlo. Usted valida el algoritmo calculando la puntuación de los dados, que es una medida de cuán similares son los objetos. Por lo tanto, es el tamaño de la superposición de las dos segmentaciones dividido por el tamaño total de los dos objetos. Usando los mismos términos que describen la precisión, la puntuación de los dados es:

Puntuación de dados = \frac{2 \cdot cantidad de verdaderos positivos}{2 \cdot cantidad de positivos verdaderos + cantidad de falsos positivos + cantidad de falsos negativos}

$\text{Dice score} = \frac{2\cdot \text{number of true positives}}{2 \cdot \text{number of true positives + number of false positives + number of false negatives}}$ Entonces, el número de positivos verdaderos es el número que encuentra su método, el número de positivos es el número total de positivos que se pueden encontrar y el número de falsos positivos es el número de puntos negativos que su método clasifica como positivos.

El puntaje de dados no es solo una medida de cuántos positivos encuentra, sino que también penaliza los falsos positivos que encuentra el método, similar a la precisión. Por lo tanto, es más similar a la precisión que a la precisión. La única diferencia es el denominador, donde tiene el número total de positivos en lugar de solo los positivos que encuentra el método. Por lo tanto, el puntaje Dice también penaliza los aspectos positivos que su algoritmo / método no pudo encontrar.

Editar: en el caso de la segmentación de imágenes, digamos que tiene una máscara con verdad real, llamemos a la máscara $A$ como sugiere. Entonces, la máscara tiene valores 1 en los píxeles donde hay algo que está tratando de encontrar y cero. Ahora tiene un algoritmo para generar la imagen / máscara $B$ , que también tiene que ser una imagen binaria, es decir, crea una máscara para su segmentación. Luego tenemos lo siguiente:

El número de positivos es el número total de píxeles que tienen intensidad 1 en la imagen $A$
Número de verdaderos positivos es el número total de píxeles que tienen el valor 1 en ambos $A$ y $B$ . Por lo tanto, la intersección de las regiones de los de $A$ y $B$ . Es lo mismo que utilizar el operador AND en $A$ y $B$ .
Número de falsos positivos es el número de píxeles que aparecen como 1 en $B$ pero cero en $A$ .

Si está haciendo esto para una publicación, escriba Dice con una D mayúscula, porque lleva el nombre de un tipo llamado Dice.

EDITAR: con respecto al comentario sobre una corrección: no uso la fórmula tradicional para calcular el coeficiente de dados, pero si lo traduzco a la notación en la otra respuesta se convierte en:

Puntuación de dados = \frac{2 \cdot El | UNA \cap si El |}{2 \cdot El | UNA \cap si El | + El | si ∖ UNA El | + El | UNA ∖ si El |}

$\text{Dice score} = \frac{2\cdot|A\cap B|}{2\cdot|A\cap B| + |B\backslash A| + |A\backslash B|}$

Lo cual es equivalente a la definición tradicional. Es más conveniente escribirlo como lo escribí originalmente para establecer la fórmula en términos de falsos positivos. La barra invertida es el conjunto menos.

Gumeo
fuente

Gracias por la respuesta. Exactamente para la comparación de segmentación de imágenes. Entonces, este puntaje de dados se usa, digamos, dar la imagen A y la imagen B. La imagen A es la base verdadera (0 o 1), y la imagen B es mi segmentación. Entonces, ¿cuál es el número total de positivos (1), es que el número de 1 en A + el número de 1 en B? Estoy un poco confundido aquí. Igual que falso positivo

RockTheStar

@RockTheStar Editaré mi respuesta para dar cuenta de la segmentación de imágenes.

Gumeo

Genial, muchas gracias por tu explicación. Una pregunta de seguimiento más. ¿Qué pasa con el rango de D? ¿Eso es entre 0 y 1?

RockTheStar

¡Muchas gracias! Implementará esto y mirará el resultado

RockTheStar

@Gumeo es posible que desee corregir o al menos explicar su respuesta, consulte mi nueva respuesta para obtener más detalles

dvb

El coeficiente de dados (también conocido como índice de similitud de dados) es el mismo que el puntaje F1 , pero no es lo mismo que la precisión. La principal diferencia podría ser el hecho de que la precisión tiene en cuenta los negativos verdaderos, mientras que el coeficiente Dice y muchas otras medidas solo manejan los negativos verdaderos como valores predeterminados sin interés (ver Los fundamentos de la evaluación del clasificador, Parte 1 ).

Por lo que puedo decir, el coeficiente de dados no se calcula como se describe en una respuesta anterior , que en realidad contiene la fórmula para el índice Jaccard (también conocido como "intersección sobre unión" en la visión por computadora).

\begin{aligned} re yo C mi (UNA, si) & = \frac{2 El | UNA \cdot si El |}{El | UNA El | + El | si El |} \\ F 1 (UNA, si) & = \frac{2}{El | UNA El | / / El | UNA \cdot si El | + El | si El | / / El | UNA \cdot si El |} \\ J una C C una r re (UNA, si) & = \frac{El | UNA \cdot si El |}{El | metro una X (UNA, si) El |} = \frac{El | UNA \cdot si El |}{El | UNA El | + El | si El | - El | UNA \cdot si El |} \\ UNA C C tu r una C y (UNA, si) & = \frac{El | UNA \cdot si El | + El | \bar{UNA} \cdot \bar{si} El |}{El | UNA l l El |} \end{aligned}

$\begin{align*} Dice(A,B) &= \frac{2|A\cdot B|}{ |A| + |B| } \\ F1(A,B) &= \frac{2}{|A|/|A \cdot B| + |B|/|A\cdot B|} \\ Jaccard(A,B) &= \frac{|A\cdot B|}{|max(A,B)|} = \frac{|A\cdot B|}{|A|+|B|-|A\cdot B|}\\ Accuracy(A,B) &= \frac{|A\cdot B|+|\overline{A} \cdot \overline{B}|}{|All|} \\ \end{align*}$

$A,B$ $All$ $|A \cdot B|$ $A$ $B$ $|\overline{A} \cdot \overline{B}|$ $A$ $B$

El coeficiente de Dice y el índice de Jaccard están monotónicamente relacionados, y el índice de Tversky los generaliza a ambos, para leer más al respecto, ver F-score, Dice y Jaccard establecen similitud .

El coeficiente Dice también es la media armónica de Sensibilidad y Precisión, para ver por qué tiene sentido, lea ¿Por qué F-Measure es una media armónica y no una media aritmética de las medidas de Precisión y Recuperación? .

Para leer más sobre muchos de los términos en esta respuesta y sus relaciones, vea Evaluación de clasificadores binarios .

dvb
fuente