Cualitativamente, ¿qué es la entropía cruzada?

Esta pregunta da una definición cuantitativa de entropía cruzada, en términos de su fórmula.

Estoy buscando una definición más teórica, wikipedia dice:

En teoría de la información, la entropía cruzada entre dos distribuciones de probabilidad mide el número promedio de bits necesarios para identificar un evento a partir de un conjunto de posibilidades, si se utiliza un esquema de codificación basado en una distribución de probabilidad dada q, en lugar de la distribución "verdadera" p .

He enfatizado la parte que me está dando problemas para entender esto. Me gustaría una buena definición que no requiera una comprensión separada (preexistente) de Entropy.

entropy information-theory Lyndon White
fuente

Está solicitando una definición de entropía cruzada que, al mismo tiempo, definirá la entropía misma. E intuitivamente, entonces ... Si tiene problemas para comprender el concepto de Entropía en sí, sería una buena idea primero comprender el concepto básico y luego cualquiera de sus extensiones.

Alecos Papadopoulos

Personalmente, tenía una comprensión básica de Entropía (aunque han pasado casi 12 meses desde que la apliqué). Pero una expresión cuantitativa de Entropía, debería caber en un párrafo corto, y la entropía cruzada solo debería tomar una más. Por lo tanto, creo que una buena respuesta puede incluir ambas, de modo que el lector no necesite referirse a otra parte para comprenderlo.

Lyndon White

Vea las publicaciones relacionadas: stats.stackexchange.com/questions/66186/… y stats.stackexchange.com/questions/188903/…

kjetil b halvorsen

Respuestas:

$p$ $\log_2(1/p)$

\sum_{i} p_{i} \log_{2} (\frac{1}{p_{i}}),

$\sum_i p_i \log_2(\tfrac{1}{p_i}),$

$P$ $Q$

\sum_{i} p_{i} code_length(i) = \sum_{i} p_{i} \log_{2} (\frac{1}{q_{i}}),

$\sum_i p_i \text{code_length($i$)} = \sum_i p_i \log_2(\tfrac{1}{q_i}),$

\sum_{i} p_{i} \log_{2} (\frac{1}{p_{i}})

$\sum_i p_i \log_2(\tfrac{1}{p_i})$

$P=(\tfrac{1}{2}, \tfrac{1}{2}, 0, 0)$

Luego, si queremos codificarlo de manera óptima, codificamos A como 0 y B como 1, por lo que obtenemos un bit de mensaje codificado por letra. (Y es exactamente la entropía de Shannon de nuestra distribución de probabilidad).

$P$ $Q=(\tfrac{1}{4},\tfrac{1}{4},\tfrac{1}{4},\tfrac{1}{4})$

Piotr Migdal
fuente

Buena explicación, gracias. Sin embargo, la definición de wikipedia es sum_i [p_i * log (q_i)]. Su uso de 1 / q_i da el número de estados posibles, por lo tanto, log_2 lo convierte en el número de bits necesarios para codificar un solo símbolo, pero la página de wikipedia describe algo sutilmente diferente.

redcalx

1 / q_{i}

$1/q_i$

\log (1 / q_{i}) = - \log (q_{i})

$\log(1/q_i)=-\log(q_i)$