¿Es posible aplicar la divergencia KL entre distribución discreta y continua?

12

No soy matemático. He buscado en Internet sobre KL Divergence. Lo que aprendí es que la divergencia KL mide la información perdida cuando aproximamos la distribución de un modelo con respecto a la distribución de entrada. Los he visto entre dos distribuciones continuas o discretas. ¿Podemos hacerlo entre continuo y discreto o viceversa?

prakash
fuente
Relacionado: stats.stackexchange.com/q/6907/2970
cardenal

Respuestas:

3

No: la divergencia KL solo se define en distribuciones sobre un espacio común. Pregunta sobre la densidad de probabilidad de un punto bajo dos distribuciones diferentes, p ( x ) y q ( x ) . Si p es una distribución en R 3 y q una distribución en Z , entonces q ( x ) no tiene sentido para los puntos p R 3 y p ( z ) no tiene sentido para los puntos z Zxp(x)q(x)pR3qZq(x)pR3p(z)zZ. De hecho, ni siquiera podemos hacerlo para dos distribuciones continuas en espacios de diferentes dimensiones (o discretos, o en cualquier caso en que los espacios de probabilidad subyacentes no coincidan).

Si tiene un caso en particular en mente, puede ser posible llegar a una medida similar de disparidad entre las distribuciones. Por ejemplo, podría tener sentido codificar una distribución continua bajo un código para una discreta (obviamente con información perdida), por ejemplo, redondeando al punto más cercano en el caso discreto.

Dougal
fuente
Tenga en cuenta que la divergencia KL entre distribuciones discretas y absolutamente continuas está bien definida.
Olivier
@Olivier La definición habitual requiere una medida dominante común, ¿no?
Dougal
1
Tienes razón cuando P y Q se definen en diferentes espacios. Pero en un espacio medible común, dicha medida siempre existe (tome P + Q por ejemplo), y la divergencia KL no depende de la elección particular de la medida dominante.
Olivier
8

Sí, la divergencia KL entre variables aleatorias continuas y discretas está bien definida. Si y Q son distribuciones en algún espacio X , entonces P y Q tienen densidades f , g con respecto a μ = P + Q y D K L ( P , Q ) = X f log fPQXPQfgμ=P+Q

DKL(P,Q)=Xflogfgdμ.

X=[0,1]PQ=δ00f(x)=11x=0g(x)=1x=0

DKL(P,Q)=.
Olivier
fuente
Xflogfgdμ
Teorema de cambio de medida.
Olivier
1

No en general La divergencia KL es

DKL(P || Q)=Xlog(dPdQ)dP

PQPQσdPdQ

σ

jtobin
fuente