Consideremos las siguientes dos distribuciones de probabilidad
P Q
0.01 0.002
0.02 0.004
0.03 0.006
0.04 0.008
0.05 0.01
0.06 0.012
0.07 0.014
0.08 0.016
0.64 0.928
He calculado la divergencia de Kullback-Leibler que es igual a , quiero saber en general ¿qué me muestra este número? En general, la divergencia Kullback-Leibler me muestra cuán lejos está una distribución de probabilidad de otra, ¿verdad? Es similar a la terminología de entropía, pero en términos de números, ¿qué significa? Si tengo un resultado de 0.49, ¿puedo decir que aproximadamente una distribución está lejos de otra en un 50%?
interpretation
information-theory
kullback-leibler
dato datuashvili
fuente
fuente
Respuestas:
La divergencia Kullback-Leibler no es una medida propiamente dicha, ya que no es simétrica y tampoco satisface la desigualdad del triángulo. Por lo tanto, los "roles" desempeñados por las dos distribuciones son diferentes, y es importante distribuir estos roles de acuerdo con el fenómeno del mundo real en estudio.
Cuando escribimos (el OP ha calculado la expresión usando logaritmos de base 2)
consideramos que la distribución es la "distribución objetivo" (generalmente considerada como la distribución verdadera), que aproximamos utilizando la distribución Q.P Q
Ahora,
donde es la entropía de Shannon de distribución P y - E P ( ln ( Q ) ) se llama "entropía cruzada de P y Q " -también no simétrica.H(P) P −EP(ln(Q)) P Q
Escritura
(aquí también, el orden en el que escribimos las distribuciones en la expresión de la entropía cruzada es importante, ya que tampoco es simétrico), nos permite ver que la divergencia KL refleja un aumento en la entropía sobre la entropía inevitable de la distribución .P
Entonces, no , es mejor que la divergencia de KL no se interprete como una "medida de distancia" entre distribuciones, sino más bien como una medida de aumento de entropía debido al uso de una aproximación a la distribución verdadera en lugar de la distribución verdadera en sí .
Entonces estamos en la teoría de la información de la tierra. Para escucharlo de los maestros (Cover & Thomas) "
Los mismos sabios dicen
Pero este último enfoque es útil principalmente cuando se intenta minimizar la divergencia de KL para optimizar algún procedimiento de estimación. Para la interpretación de su valor numérico per se , no es útil, y uno debería preferir el enfoque de "aumento de entropía".
Para las distribuciones específicas de la pregunta (siempre usando logaritmos de base 2)
En otras palabras, se necesita 25% más bits para describir la situación si se va a utilizar , mientras que la verdadera distribución es P . Esto significa líneas de código más largas, más tiempo para escribirlas, más memoria, más tiempo para leerlas, mayor probabilidad de errores, etc ... no es casualidad que Cover & Thomas digan que KL-Divergence (o "entropía relativa") " mide la ineficiencia causada por la aproximación ".Q P
fuente
KL Divergence mide la pérdida de información requerida para representar un símbolo de P usando símbolos de Q. Si obtiene un valor de 0.49, eso significa que en promedio puede codificar dos símbolos de P con los dos símbolos correspondientes de Q más un bit de información adicional .
fuente
fuente