Más allá de la ecuación en bruto para calcular la información mutua, ¿qué significa en términos físicos? Por ejemplo: de la teoría de la información, sabemos que la entropía es el esquema de compresión sin pérdidas más pequeño que podemos usar en un alfabeto con una distribución de probabilidad específica.
¿Qué significaría eso en términos de información mutua?
Antecedentes: estoy tratando de calcular la información mutua de palabras de uni gramo y determinar de cuál de los dos libros provienen.
esencial
information-theory
CyberMen
fuente
fuente
Respuestas:
La información mutua, por definición, relaciona dos variables aleatorias (RV) y mide la dependencia entre los dos RV desde la perspectiva del contenido de la información, es decir, la medida de la cantidad de información contenida por un RV sobre el otro RV. Y la información mutua es una cantidad simétrica, es decir, .I(X;Y)=I(Y;X)
En el caso de un canal de comunicación, la capacidad máxima alcanzable para el canal es el máximo de la información mutua entre la entrada del canal y la salida .C=maxp(x)I(X;Y)
En su caso, los dos RV e corresponderían a libros y palabras. La información mutua mediría la cantidad de información común entre un par (libro, palabra). Obviamente asociaría la palabra al libro con el que tiene la máxima información mutua. Este es el enfoque de máxima información mutua.YX Y
fuente
Dos tomas intuitivas adicionales de información mutua:
Cuando dos variables aleatorias son independientes, la distribución conjunta y el producto de las distribuciones marginales y son idénticos. Por lo tanto, se podría evaluar el grado de independencia entre dos variables aleatorias calculando una distancia probabilística entre y ; esta distancia es 0 cuando las dos variables son independientes. Una distancia probabilística común entre la variable es la divergencia Kullback-Leibler. Si toma la divergencia Kullback-Leibler entre la distribución conjunta y el producto de los márgenes de dos variables aleatorias, terminará con ... información mutua.p ( x ) p ( y ) p ( x ) × p ( y ) p ( x , y )p ( x , y) p(x) p(y) p(x)×p(y) p(x,y)
Desde una perspectiva de compresión / codificación, imagine que le dan una secuencia de pares de observaciones . Desea comprimirlos en un archivo. Dos estrategias: almacenar todo el (x) en un archivo comprimido y luego independientemente (y) en otro archivo comprimido; vs comprimir los pares. Usando un codificador óptimo, el tamaño del archivo en el primer caso es , mientras que en el segundo caso el tamaño del archivo es . ¡El segundo enfoque es más eficiente si existe una relación entre las dos variables observadas! ¿Cuántos bits hemos guardado por observación? ( x , y ) N × H ( X ) + N × H ( Y ) N × H ( X , Y ) N × H ( X ) + N × H ( Y ) - N × H ( X , Y )N (x,y) N×H(X)+N×H(Y) N×H(X,Y) N×H(X)+N×H(Y)−N×H(X,Y)N=I(X,Y) ! Entonces, la información mutua nos dice cuántos bits por observación ahorramos al codificar dos flujos de datos de forma conjunta en lugar de hacerlo de forma independiente.
Sin embargo, no estoy seguro de su ejemplo ... La información mutua se calcula entre dos variables aleatorias (distribuciones). Puedo ver cómo "libro" puede representar la distribución de palabras en un libro; pero no estoy seguro de qué significa "palabra" aquí. La información mutua también requiere que se computen las observaciones "emparejadas".
fuente