Agrupación: ¿Debería usar la divergencia Jensen-Shannon o su cuadrado?

Respuestas:

20

Creo que depende de cómo se use.

Solo como referencia para otros lectores, si y Q son medidas de probabilidad, entonces la Divergencia de Jensen-Shannon es J ( P , Q ) = 1PQ dondeR=1

J(PAG,Q)=12(re(PAG∣∣R)+re(Q∣∣R))
es la medida del punto medio yD()es la divergencia Kullback-Leibler.R=12(PAG+Q)re(∣∣)

Ahora, estaría tentado a usar la raíz cuadrada de la divergencia de Jensen-Shannon, ya que es una métrica , es decir, satisface todas las propiedades "intuitivas" de una medida de distancia.

Para más detalles sobre esto, vea

Endres y Schindelin, una nueva métrica para distribuciones de probabilidad , IEEE Trans. en Info. Tu. vol. 49, no. 3, julio de 2003, págs. 1858-1860.

Por supuesto, en cierto sentido, depende de para qué lo necesite. Si todo lo que está usando es para evaluar alguna medida por pares, entonces cualquier transformación monotónica de JSD funcionaría. Si está buscando algo que esté más cerca de una "distancia al cuadrado", entonces el JSD es la cantidad análoga.

Por cierto, también podría estar interesado en esta pregunta anterior y las respuestas y discusiones asociadas.

cardenal
fuente
Genial, leeré "una nueva métrica para la distribución de probabilidad" lo antes posible. Txh
ocram
¡Gracias! No me di cuenta de que JSD en sí ya es análogo a dist ** 2
AlcubierreDrive
¡Gracias por la grandiosa explicación! Solo una pregunta rápida. Sé que J-Divergence es simétrico en eso J(P,Q) = J(Q,P). Leí que la divergencia JS es simétrica en P y Q. ¿Significa esto JS(P,Q) = JS(Q,P)? Estoy preguntando esto porque estoy usando la KLdivfunción del flexmixpaquete R. Para mis dos distribuciones, la salida de matriz de KLdiv no es simétrica. Esperaba que JS corrigiera esto, pero la salida de JS (calculada usando KL) no es simétrica.
Leyenda
1
@Legend: Sí, la divergencia JS es simétrica. Esperemos que sea fácil de ver a partir de la ecuación dada en la respuesta. Asegúrese de tomar la divergencia KL entrePAG y la medida del punto medio y Qy la medida del punto medio para cada uno de los dos términos. Por separado, ninguno será simétrico, necesariamente.
cardenal