Intuitivamente, ¿por qué la entropía cruzada es una medida de la distancia de dos distribuciones de probabilidad?

Para dos distribuciones discretas y , la entropía cruzada se define como $p$ $q$

H (p, q) = - \sum_{x} p (x) \log q (x) .

$H(p,q)=-\sum_x p(x)\log q(x).$

Me pregunto por qué esto sería una medida intuitiva de la distancia entre dos distribuciones de probabilidad.

Veo que es la entropía de , que mide la "sorpresa" de . es la medida que reemplaza en parte por . Todavía no entiendo el significado intuitivo detrás de la definición. $H(p,p)$ $p$ $p$ $H(p,q)$ $p$ $q$

probability distributions cross-entropy Kadistar
fuente

Le recomiendo que busque la definición matemática de métrica (y distancia). por lo general, seguir esas propiedades es lo mínimo que debe seguir una función para que sea una distancia. Espero eso ayude. Aunque parece . Intuitivamente, dado que es una función que es parte de la divergencia de KL, supongo que es una especie de divergencia de pyq compensada por la entropía p. Sin embargo, es solo una suposición. Además, la divergencia no es una métrica / distancia, por lo que me sorprendería si lo es Cross Entropy.

H (p, q) = H (p) + D_{K L} (p | | q)

$H(p,q) = H(p) + D_{KL}(p || q )$

Charlie Parker

Entonces comprender la divergencia Kullback_leibler ayuda a comprender la entropía cruzada: stats.stackexchange.com/questions/188903/…

kjetil b halvorsen

Aquí hay un gran video que explica KL Divergence de una manera clara y simple: youtube.com/watch?v=ErfnhcEV1O8

Katherine Chen

Vea si esta "Intuición detrás de Cross Entropy" ayuda: medium.com/@siddharth.4oct/…

Siddharth Roy

Respuestas:

La minimización de la entropía cruzada se usa a menudo como un objetivo de aprendizaje en modelos generativos donde p es la distribución verdadera yq es la distribución aprendida.

La entropía cruzada de p y q es igual a la entropía de p más la divergencia KL entre p y q.

$H(p, q) = H(p) + D_{KL}(p||q)$

Puede pensar en como una constante porque proviene directamente de los datos de entrenamiento y el modelo no lo aprende. Entonces, solo el término de divergencia KL es importante. La motivación para la divergencia de KL como una distancia entre las distribuciones de probabilidad es que le dice cuántos bits de información se obtienen al usar la distribución p en lugar de la aproximación q. $H(p)$ $p$

Tenga en cuenta que la divergencia KL no es una medida de distancia adecuada. Por un lado, no es simétrico en p y q. Si necesita una métrica de distancia para distribuciones de probabilidad, tendrá que usar otra cosa. Pero, si está usando la palabra "distancia" de manera informal, puede usar la divergencia KL.

Aaron
fuente

¿Por qué puedes pensar en p como una constante? Que estas aprendiendo"? q? La pregunta original no decía nada sobre el aprendizaje, por lo que estaría interesado en comprender mejor lo que querías decir :)

Charlie Parker

lo editó para que quede más claro. p es la distribución que proviene de los datos de entrenamiento y q es aprendido por el modelo.

Aaron