¿Cómo interpretar la entropía diferencial?

15

Recientemente leí este artículo sobre la entropía de una distribución de probabilidad discreta. Describe una buena manera de pensar en la entropía como los bits de número esperados (al menos cuando se usa en su definición de entropía) necesarios para codificar un mensaje cuando su codificación es óptima, dada la distribución de probabilidad de las palabras que usa.log2

Sin embargo, cuando se extiende al caso continuo como aquí , creo que esta forma de pensar se rompe, ya que para cualquier distribución de probabilidad continua (corríjame si eso está mal), así que Me preguntaba si hay una buena manera de pensar sobre lo que significa la entropía continua, al igual que en el caso discreto.xp(x)=p(x)

dippynark
fuente
¿Intentaste leer artículos de Wikipedia sobre entropía y entropía diferencial?
ttnphns
Una distribución continua no tiene una función de probabilidad de masa. El análogo en el caso continuo es la integral de una densidad de probabilidad y la integral en todo el rango de x es igual a 1.
Michael R. Chernick
@MichaelChernick No dije que tenía uno, pero la forma de pensar sobre el caso discreto se basa en el hecho de que la suma es igual a 1.
dippynark
@ttnphns no, no lo he hecho, pero los revisaré ahora, gracias.
dippynark
Vea también stats.stackexchange.com/questions/66186/… para la interpretación de la entropía de Shannon. Algunas de las ideas se pueden transferir.
kjetil b halvorsen

Respuestas:

15

No hay interpretación de la entropía diferencial que sea tan significativa o útil como la de la entropía. El problema con las variables aleatorias continuas es que sus valores generalmente tienen probabilidad 0 y, por lo tanto, requerirían un número infinito de bits para codificar.

Si observa el límite de entropía discreta midiendo la probabilidad de intervalos [nε,(n+1)ε[ , termina con

p(x)log2p(x)dxlog2ε

y no la entropía diferencial. Esta cantidad es, en cierto sentido, más significativa, pero divergerá hasta el infinito a medida que tomemos intervalos cada vez más pequeños. Tiene sentido, ya que necesitaremos más y más bits para codificar en cuál de los muchos intervalos cae el valor de nuestro valor aleatorio.

Una cantidad más útil para las distribuciones continuas es la entropía relativa (también la divergencia Kullback-Leibler). Para distribuciones discretas:

DKL[P||Q]=xP(x)log2P(x)Q(x).

PlogQ2(x)x

DKL[p∣∣q]=p(x)log2p(x)q(x)dx,

log2ε

p(x)λ(x)=1

p(x)log2p(x)dx=DKL[p∣∣λ].

log2nε(n+1)εp(x)dxnlogελ

Vea la charla de Sergio Verdu para una gran introducción a la entropía relativa.

Lucas
fuente