Diferencias entre la distancia Bhattacharyya y la divergencia KL

33

Estoy buscando una explicación intuitiva para las siguientes preguntas:

En estadística y teoría de la información, ¿cuál es la diferencia entre la distancia de Bhattacharyya y la divergencia de KL, como medidas de la diferencia entre dos distribuciones de probabilidad discretas?

¿No tienen absolutamente ninguna relación y miden la distancia entre dos distribuciones de probabilidad de una manera totalmente diferente?

JewelSue
fuente

Respuestas:

36

El coeficiente de Bhattacharyya se define como

DB(p,q)=p(x)q(x)dx
dH(p,q)
dH(p,q)={1DB(p,q)}1/2
dKL(pq)2dH2(p,q)=2{1DB(p,q)}.

Sin embargo, esta no es la pregunta: si la distancia Bhattacharyya se define como entonces Por lo tanto, la desigualdad entre las dos distancias es

dB(p,q)=deflogDB(p,q),
dB(p,q)=logDB(p,q)=logp(x)q(x)dx=deflogh(x)dx=logh(x)p(x)p(x)dxlog{h(x)p(x)}p(x)dx=12log{h2(x)p2(x)}p(x)dx=12log{q(x)p(x)}p(x)dx=12dKL(pq)
dKL(pq)2dB(p,q).
Uno podría preguntarse si esta desigualdad se sigue de la primera. Sucede lo contrario: dado que
log(x)1x0x1,
ingrese la descripción de la imagen aquí

tenemos el orden completo

dKL(pq)2dB(p,q)2dH(p,q)2.
Xi'an
fuente
2
¡Brillante! Esta explicación debería ser la que estoy buscando ansiosamente. Solo una última pregunta: ¿en qué caso (o qué tipos de P y Q) la desigualdad se convertirá en igualdad?
JewelSue
1
Dado que la función es estrictamente convexa, supongo que el único caso para la igualdad es cuando la relación es constante en . log()p(x)/q(x)x
Xi'an
55
Y el único caso cuando es constante en es cuando . p(x)/q(x)xp=q
Xi'an
8

No sé de ninguna relación explícita entre los dos, pero decidí echarles un vistazo rápido para ver qué podía encontrar. Así que esta no es una gran respuesta, sino un punto de interés.

Por simplicidad, trabajemos sobre distribuciones discretas. Podemos escribir la distancia BC como

dBC(p,q)=lnx(p(x)q(x))12

y la divergencia KL como

dKL(p,q)=xp(x)lnp(x)q(x)

Ahora no podemos empujar el registro dentro de la suma en la distancia , así que intentemos tirar del registro hacia el exterior de la divergencia :BCKL

dKL(p,q)=lnx(q(x)p(x))p(x)

Consideremos su comportamiento cuando se fija como la distribución uniforme sobre posibilidades:npn

dKL(p,q)=lnnln(xq(x))1ndBC(p,q)=ln1nlnxq(x)

A la izquierda, tenemos el registro de algo similar en forma a la media geométrica . A la derecha, tenemos algo similar al registro de la media aritmética . Como dije, esta no es una gran respuesta, pero creo que da una clara intuición de cómo la distancia BC y la divergencia KL reaccionan a las desviaciones entre y .qpq

Andy Jones
fuente