Coeficientes de similitud para datos binarios: ¿Por qué elegir Jaccard sobre Russell y Rao?

20

De la Enciclopedia de Ciencias Estadísticas entiendo que dado dicotómica (binario: 1 = presente; 0 = ausente) atributos (variables), podemos formar una tabla de contingencia para cualquier par de objetos i y j de una muestra: $p$

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

Podemos calcular a partir de estos valores coeficientes de similitud entre cualquier par de objetos, específicamente el coeficiente Jaccard y el coeficiente de Russell y Rao

\frac{una}{una + si + do}

$\frac{a}{a+b+c}$

\frac{una}{una + si + do + re} = \frac{una}{pags} .

$\frac{a}{a+b+c+d} = \frac{a}{p}.$

Cuando se calculan estos coeficientes, se obtienen valores diferentes, pero no puedo encontrar ningún recurso que explique por qué debería elegir uno sobre el otro. ¿Es solo porque para algunos conjuntos de datos, la ausencia simultánea de ambos atributos ( ) no transmite ninguna información? $d$

binary-data similarities association-measure wflynny
fuente

14

Existen muchos de estos coeficientes (la mayoría se expresan aquí ). Solo trate de meditar sobre cuáles son las consecuencias de las diferencias en las fórmulas, especialmente cuando calcula una matriz de coeficientes.

Imagine, por ejemplo, que los objetos 1 y 2 son similares, como lo son los objetos 3 y 4. Pero 1 y 2 tienen muchos de los atributos en la lista, mientras que 3 y 4 tienen pocos atributos. En este caso, Russell-Rao (proporción de co-atributos con respecto al número total de atributos bajo consideración) será alto para el par 1-2 y bajo para el par 3-4. Pero Jaccard (proporción de co-atributos con respecto al número combinado de atributos que tienen ambos objetos = probabilidad de que si un objeto tiene un atributo, ambos lo tengan) será alto para ambos pares 1-2 y 3-4.

Este ajuste para el nivel base de "saturación por atributos" hace que Jaccard sea tan popular y más útil que Russell-Rao , por ejemplo, en análisis de conglomerados o escalamiento multidimensional. En cierto sentido, puede refinar aún más el ajuste anterior seleccionando la medida Kulczynski-2, que es la probabilidad media aritmética de que si un objeto tiene un atributo, el otro objeto también lo tiene:

(\frac{una}{una + si} + \frac{una}{una + do}) / / 2

$(\frac{a}{a+b} + \frac{a}{a+c}) /2$ Aquí la base (o campo) de atributos para los dos objetos no se agrupa, como en Jaccard, sino que es propia de cada uno de los dos objetos. En consecuencia, si los objetos difieren mucho en el número de atributos que tienen, y todos sus atributos el objeto "más pobre" comparte con el "más rico", Kulczynski será alto mientras que Jaccard será moderado.

O podría preferir calcular la probabilidad media geométrica de que si un objeto tiene un atributo, el otro objeto también lo tenga, lo que produce la medida de Ochiai : Debido a que el producto aumenta más débil que la suma cuando solo crece uno de los términos, Ochiai será realmente alto solo si las dos proporciones (probabilidades) son altas, lo que implica que para ser considerado similar por Ochiai los objetos deben compartir el gran acciones de sus atributos. En resumen, Ochiai frena similitud si y son desiguales. Ochiai es, de hecho, la medida de similitud de coseno (y Russell-Rao es la similitud del producto de punto).

\sqrt{\frac{una}{una + si} \frac{una}{una + do}}

$\sqrt {\frac{a}{a+b} \frac{a}{a+c}}$

b

$b$

c

$c$

PD

¿Es solo porque para algunos conjuntos de datos, la ausencia simultánea de ambos atributos (d) no transmite ninguna información?

Hablando de medidas de similitud, uno no debe mezclar atributos dicotómicos nominales (por ejemplo, femenino, masculino) con atributos binarios (presente vs ausente). El atributo binario no es simétrico (en general), si usted y yo compartimos una característica, es la base para llamarnos similares; Si usted y yo perdemos la característica, puede o no considerarse la evidencia de similitud, dependiendo del contexto del estudio. Por lo tanto, el tratamiento divergente de es posible. $d$

Tenga en cuenta también que si desea calcular la similitud entre los objetos en base a los atributos nominales 1+ (dicotómicos o politómicos), vuelva a codificar cada una de esas variables en el conjunto de variables binarias ficticias. Entonces, la medida de similitud recomendada para calcular será Dice ( que , cuando se calcula para 1+ conjuntos de variables ficticias, es equivalente a Ochiai y Kulczynski-2).

ttnphns
fuente

2

Se han sugerido varios términos por supuesta analogía con "dicotómico" para clasificaciones con más de dos categorías. "Polytomous" es preferible lingüísticamente a "polychotomous", que se basa en una suposición incorrecta de que "dicotomous" se analiza en dos raíces griegas, "di" y "chotomous". "Multichotomous" compone ese error con el uso de una raíz latina. Aunque las palabras con raíces latinas y griegas separadas han sobrevivido al desdén de los lingüistas (por ejemplo, "televisión"), aconsejo el uso de "politomatoso" aquí.

Nick Cox

Gracias por recordarlo. De hecho, sabía lo que estabas diciendo y trato de ser purista ... cuando no tengo prisa. Lo editaré

ttnphns

3

La utilidad del coeficiente de Tanimoto sobre la precisión tradicional (es decir, Russell-Rao) es evidente en el análisis de imágenes, al comparar una segmentación con un estándar de oro. Considere estas dos imágenes:

En cada una de estas imágenes que son 'máscaras' binarias, tenemos dos objetos del mismo tamaño pero ubicados en ubicaciones ligeramente diferentes, y queremos evaluar en qué medida estos objetos son idénticos en forma y posición evaluando su superposición. Por lo general, una (por ejemplo, la máscara púrpura) es una segmentación (producida por un algoritmo informático), por ejemplo, esto podría ser un intento de localizar el corazón a partir de una imagen médica. El otro (por ejemplo, verde) es el estándar de oro (es decir, el corazón, según lo identificado por un médico experto). Donde hay color blanco, las dos formas se superponen. Los píxeles negros son de fondo.

Las dos imágenes son idénticas (es decir, el resultado del algoritmo de segmentación, así como el estándar de oro, son los mismos en ambas imágenes), excepto por una gran cantidad de "relleno" de fondo en la segunda imagen (por ejemplo, esto podría representar dos experimentos con dos máquinas de rayos X diferentes, donde la segunda máquina tenía un rayo más ancho que cubría más área del cuerpo, pero de lo contrario el tamaño del corazón es el mismo en ambos conjuntos de imágenes).

Claramente, dado que la segmentación y el estándar de oro en ambas imágenes son idénticos, si evaluamos la precisión de la segmentación con respecto al estándar de oro, nos gustaría que nuestra métrica arroje el mismo resultado de 'precisión' en ambos experimentos.

Sin embargo, si intentamos evaluar la calidad de la segmentación utilizando el enfoque de Russel-Rao, obtendríamos una precisión engañosamente alta para la imagen correcta (cerca del 100%), porque los "píxeles de fondo identificados correctamente como píxeles de fondo" contribuyen a La precisión general de los conjuntos y los píxeles de fondo se representan de manera desproporcionada en el segundo conjunto. Los objetos cuya superposición queremos evaluar en la segmentación médica son a menudo pequeñas manchas en un fondo masivo, por lo que esto no es muy útil para nosotros. Además, esto generaría problemas si estuviéramos tratando de comparar la precisión de un algoritmo de segmentación con otro, ¡y los dos fueron evaluados en imágenes de diferente tamaño! (o, equivalentemente, a diferentes escalas).¡La escala / tamaño de la imagen incrustada no debería hacer una diferencia en la evaluación de una segmentación contra un estándar de oro! .

Por el contrario, el coeficiente de tanimoto no se preocupa por los píxeles de fondo, lo que lo hace invariable a 'escala'. En lo que respecta al coeficiente de tanimoto, la similitud de ambos conjuntos será idéntica, por lo que es una métrica de similitud mucho más útil para que la usemos para evaluar la calidad de un algoritmo de segmentación.

Tasos Papastylianou
fuente

Coeficientes de similitud para datos binarios: ¿Por qué elegir Jaccard sobre Russell y Rao?

Respuestas: