Cualitativamente, ¿qué es la entropía cruzada?

15

Esta pregunta da una definición cuantitativa de entropía cruzada, en términos de su fórmula.

Estoy buscando una definición más teórica, wikipedia dice:

En teoría de la información, la entropía cruzada entre dos distribuciones de probabilidad mide el número promedio de bits necesarios para identificar un evento a partir de un conjunto de posibilidades, si se utiliza un esquema de codificación basado en una distribución de probabilidad dada q, en lugar de la distribución "verdadera" p .

He enfatizado la parte que me está dando problemas para entender esto. Me gustaría una buena definición que no requiera una comprensión separada (preexistente) de Entropy.

Lyndon White
fuente
1
Está solicitando una definición de entropía cruzada que, al mismo tiempo, definirá la entropía misma. E intuitivamente, entonces ... Si tiene problemas para comprender el concepto de Entropía en sí, sería una buena idea primero comprender el concepto básico y luego cualquiera de sus extensiones.
Alecos Papadopoulos
1
Personalmente, tenía una comprensión básica de Entropía (aunque han pasado casi 12 meses desde que la apliqué). Pero una expresión cuantitativa de Entropía, debería caber en un párrafo corto, y la entropía cruzada solo debería tomar una más. Por lo tanto, creo que una buena respuesta puede incluir ambas, de modo que el lector no necesite referirse a otra parte para comprenderlo.
Lyndon White
Vea las publicaciones relacionadas: stats.stackexchange.com/questions/66186/… y stats.stackexchange.com/questions/188903/…
kjetil b halvorsen

Respuestas:

23

plog2(1/p)

ipilog2(1pi),

PQ

ipicode_length(i)=ipilog2(1qi),
ipilog2(1pi)

P=(12,12,0,0)

Luego, si queremos codificarlo de manera óptima, codificamos A como 0 y B como 1, por lo que obtenemos un bit de mensaje codificado por letra. (Y es exactamente la entropía de Shannon de nuestra distribución de probabilidad).

PQ=(14,14,14,14)

Piotr Migdal
fuente
Buena explicación, gracias. Sin embargo, la definición de wikipedia es sum_i [p_i * log (q_i)]. Su uso de 1 / q_i da el número de estados posibles, por lo tanto, log_2 lo convierte en el número de bits necesarios para codificar un solo símbolo, pero la página de wikipedia describe algo sutilmente diferente.
redcalx
44
1/qilog(1/qi)=log(qi)