Pros de Jeffries Matusita distancia

11

Según algún artículo que estoy leyendo, la distancia de Jeffries y Matusita se usa comúnmente. Pero no pude encontrar mucha información al respecto, excepto la fórmula a continuación

JMD (x, y) = (xi2yi2)22

Es similar a la distancia euclidiana, excepto por la raíz cuadrada

E (x, y) = (xiyi)22

Se dice que la distancia JM es más confiable que la distancia euclidiana en términos de clasificación. ¿Alguien puede explicar por qué esta diferencia hace que la distancia JM sea mejor?

romy_ngo
fuente
1
xiyi
@ user603 Sí, creo que lo tienes. Ahora las conexiones con las divergencias de KL y la medida de Battacharyya se hacen evidentes.
whuber

Respuestas:

14

Algunas diferencias clave, que preceden a una explicación más larga a continuación, son:

  1. Crucialmente: la distancia Jeffries-Matusita se aplica a distribuciones, en lugar de vectores en general.
  2. La fórmula de distancia JM que cita arriba solo se aplica a vectores que representan distribuciones de probabilidad discretas (es decir, vectores que suman 1).
  3. A diferencia de la distancia euclidiana, la distancia JM se puede generalizar a cualquier distribución para la que se pueda formular la distancia Bhattacharrya.
  4. La distancia JM tiene, a través de la distancia Bhattacharrya, una interpretación probabilística.

bp,q[0,inf)[0,2]

JMp,q=2(1exp(b(p,q))

Una ventaja práctica de la distancia JM, de acuerdo con este documento, es que esta medida "tiende a suprimir los valores altos de separabilidad, mientras que enfatiza demasiado los valores bajos de separabilidad".

La distancia de Bhattacharrya mide la disimilitud de dos distribuciones y en el siguiente sentido continuo abstracto: Si las distribuciones y son capturados por histogramas, representados por vectores de longitud unitaria (donde el ésimo elemento es el recuento normalizado para ésima de contenedores) esto se convierte en: Y, en consecuencia, la distancia JM para los dos histogramas es: Que, señalando eso para histogramas normalizadospq

b(p,q)=lnp(x)q(x)dx
pqiiN
b(p,q)=lni=1Npiqi
JMp,q=2(1i=1Npiqi)
ipi=1, es la misma que la fórmula que proporcionó anteriormente:
JMp,q=i=1N(piqi)2=i=1N(pi2piqi+qi)=2(1i=1Npiqi)
rroowwllaanndd
fuente
+1 Muchas gracias por saltar y hacer este esfuerzo muy bien hecho para aclarar la situación.
whuber