¿Cuál es la diferencia práctica entre la métrica de Wasserstein y la divergencia de Kullback-Leibler ? La métrica de Wasserstein también se conoce como la distancia del motor de la Tierra .
De Wikipedia:
La métrica de Wasserstein (o Vaserstein) es una función de distancia definida entre distribuciones de probabilidad en un espacio métrico dado M.
y
La divergencia de Kullback-Leibler es una medida de cómo una distribución de probabilidad diverge de una segunda distribución de probabilidad esperada.
He visto que KL se ha utilizado en implementaciones de aprendizaje automático, pero recientemente me encontré con la métrica de Wasserstein. ¿Hay una buena pauta sobre cuándo usar uno u otro?
(No tengo suficiente reputación para crear una nueva etiqueta con Wasserstein
o Earth mover's distance
.)
fuente
Respuestas:
Cuando se consideran las ventajas de la métrica de Wasserstein en comparación con la divergencia de KL, la más obvia es que W es una métrica mientras que la divergencia de KL no lo es, ya que KL no es simétrica (es decir, en general) y no satisface la desigualdad del triángulo (es decir, no se cumple en general).D K L ( R | | P ) ≤ D K L ( Q | | P ) + D K L ( R | | Q )reKL( PEl | El | Q)≠ DKL( Q | | P) reKL( R | | P) ≤ DKL( Q | | P) + DKL( R | | Q )
En cuanto a la diferencia práctica, una de las más importantes es que, a diferencia de KL (y muchas otras medidas), Wasserstein tiene en cuenta el espacio métrico y lo que esto significa en términos menos abstractos puede explicarse mejor con un ejemplo (no dude en omitirlo) a la figura, código solo para producirlo):
Aquí las medidas entre las distribuciones roja y azul son las mismas para la divergencia KL, mientras que la distancia de Wasserstein mide el trabajo requerido para transportar la masa de probabilidad del estado rojo al estado azul usando el eje x como un "camino". Obviamente, esta medida es mayor cuanto más lejos esté la masa de probabilidad (de ahí la distancia del alias del motor de tierra). Entonces, cuál desea utilizar depende de su área de aplicación y de lo que desea medir. Como nota, en lugar de la divergencia KL también hay otras opciones, como la distancia de Jensen-Shannon, que son métricas adecuadas.
fuente
La métrica de Wasserstein aparece más comúnmente en problemas de transporte óptimos donde el objetivo es mover cosas de una configuración dada a una configuración deseada en el costo mínimo o la distancia mínima. El Kullback-Leibler (KL) es una divergencia (no una métrica) y aparece con mucha frecuencia en estadística, aprendizaje automático y teoría de la información.
Además, la métrica de Wasserstein no requiere que ambas medidas estén en el mismo espacio de probabilidad, mientras que la divergencia KL requiere que ambas medidas se definan en el mismo espacio de probabilidad.
fuente
Considero que esta propiedad es una extensión muy natural para hablar sobre la diferencia absoluta entre dos variables aleatorias
fuente