¿Cuál es el valor máximo de la divergencia Kullback-Leibler (KL)

14

Voy a usar la divergencia de KL en mi código de Python y obtuve este tutorial .

En ese tutorial, implementar la divergencia de KL es bastante simple.

kl = (model * np.log(model/actual)).sum()

Según tengo entendido, la distribución de probabilidad de modely actualdebería ser <= 1.

Mi pregunta es, ¿cuál es el límite máximo / valor máximo posible de k ?. Necesito saber el valor máximo posible de la distancia kl en cuanto al límite máximo en mi código.

usuario46543
fuente
Esto es un duplicado de stats.stackexchange.com/q/333877/103153
Lerner Zhang

Respuestas:

16

O incluso con el mismo soporte, cuando una distribución tiene una cola mucho más gorda que la otra. Tome cuando luego y Existen otras distancias que permanecen acotadas comop ( x ) = densidad de Cauchy 1

KL(P||Q)=p(x)log(p(x)q(x))dx
KL(P||Q)=1
p(x)=1π11+x2Cauchy densityq(x)=12πexp{x2/2}Normal density
1
KL(P||Q)=1π11+x2logp(x)dx+1π11+x2[log(2π)/2+x2/2]dx
1π11+x2x2/2dx=+
  • la distancia , equivalente a la distancia de variación total,L¹
  • las distancias de Wasserstein
  • la distancia de Hellinger
Xi'an
fuente
1
Muy buen comentario @ Xi'an
Carlos Campos
Gracias @ Xi'an es esa media, incluso la suma de todos los contenedores para ambas distribuciones son = 1, la divergencia kl no tiene un límite máximo? ¿tiene alguna otra opción de función de distancia para dos distribuciones de probabilidad que haya definido límite máximo / límite estático?
user46543
¿P es absolutamente continuo con respecto a Q en este caso?
Sangwoong Yoon
En ese caso"? El KL no está definido como tal para distribuciones que no son absolutamente continuas entre sí, creo.
Xi'an
12

Para distribuciones que no tienen el mismo soporte, la divergencia de KL no está limitada. Mira la definición:

KL(P||Q)=p(x)ln(p(x)q(x))dx

si P y Q no tienen el mismo soporte, existe algún punto donde y , haciendo que KL vaya al infinito. Esto también es aplicable para distribuciones discretas, que es su caso. p ( x ) 0 q ( x ) = 0xp(x)0q(x)=0

Editar: Quizás una mejor opción para medir la divergencia entre las distribuciones de probabilidad sería la llamada distancia de Wasserstein, que es una métrica y tiene mejores propiedades que la divergencia KL. Se ha vuelto bastante popular debido a sus aplicaciones en aprendizaje profundo (ver redes WGAN)

Carlos Campos
fuente
Gracias @ carlos-campos mi distribución, tanto la real como la modelo, tienen la misma condición, que es la suma de todos los contenedores = 1. ¿Eso significa que mi divergencia Kl todavía no tiene un límite máximo? Veré la distancia
wassertein
Qué distancia de movimiento de Wasserstein o Tierra tiene un límite máximo explícito? porque lo necesito.
user46543
@ user46543 La distancia de Wasserstein puede ser tan alta como
Mark L. Stone
Hola @ MarkL.Stone, ¿entonces no hay una función de distancia para calcular la distancia entre dos distribuciones de probabilidad que tiene el límite máximo estático? por ejemplo, mientras dos distribuciones de probabilidad tienen una suma de 1 y el límite máximo de la distancia será 1. ¿Estoy en lo correcto?
user46543
3

Para agregar a las excelentes respuestas de Carlos y Xi'an , también es interesante observar que una condición suficiente para que la divergencia KL sea finita es que ambas variables aleatorias tengan el mismo soporte compacto y que la densidad de referencia esté limitada . Este resultado también establece un límite implícito para el máximo de la divergencia KL (ver el teorema y la prueba a continuación).


Teorema: Si la densidad de y tienen el mismo soporte compacto y la densidad es limitado en que el apoyo (es decir, es tiene un finito límite superior), entonces .q X p K L ( P | | Q ) < pqXpKL(P||Q)<

Prueba: dado que tiene soporte compacto esto significa que hay algún valor mínimo positivo:XqX

q_infxXq(x)>0.

Del mismo modo, dado que tiene soporte compacto esto significa que hay un valor de supremum positivo:pX

p¯supxXp(x)>0.

Además, dado que ambas son densidades en el mismo soporte, y la última está limitada, tenemos . Esto significa que:0<q_p¯<

supxXln(p(x)q(x))ln(p¯)ln(q_).

Ahora, dejando que sea ​​el último límite superior, claramente tenemos so ese:L_ln(p¯)ln(q_)0L_<

KL(P||Q)=Xln(p(x)q(x))p(x)dxsupxXln(p(x)q(x))Xp(x)dx(ln(p¯)ln(q_))Xp(x)dx=L_<.

Esto establece el límite superior requerido, lo que demuestra el teorema.

Reinstalar a Mónica
fuente
El resultado es correcto pero la restricción es pesada: una densidad Beta no goza de un soporte compacto cuando . B(α,β)max(α,β)>1
Xi'an
Eso es cierto: es solo una condición suficiente después de todo. ¡Condiciones más débiles son bienvenidas!
Vuelve a instalar a Monica el