Ganancia de información, información mutua y medidas relacionadas

33

Andrew More define la ganancia de información como:

IG(Y|X)=H(Y)H(Y|X)

donde es la entropía condicional . Sin embargo, Wikipedia llama a la cantidad anterior información mutua .H(Y|X)

Wikipedia, por otro lado, define la ganancia de información como la divergencia Kullback-Leibler (también conocida como divergencia de información o entropía relativa) entre dos variables aleatorias:

DKL(P||Q)=H(P,Q)H(P)

donde se define como la entropía cruzada .H(P,Q)

Estas dos definiciones parecen ser inconsistentes entre sí.

También he visto a otros autores hablar sobre dos conceptos relacionados adicionales, a saber, la entropía diferencial y la ganancia de información relativa.

¿Cuál es la definición o relación precisa entre estas cantidades? ¿Hay un buen libro de texto que los cubra a todos?

  • Ganancia de información
  • Información mutua
  • Entropía cruzada
  • Entropía condicional
  • Entropía diferencial
  • Ganancia de información relativa
Amelio Vazquez-Reina
fuente
2
Para aumentar aún más la confusión, tenga en cuenta que la notación que utilizó para la entropía cruzada también es la misma notación utilizada para la entropía conjunta. He usado para la entropía cruzada para evitar confundirme, pero eso es para mi beneficio y nunca he visto esa notación en otro lugar. Hx(P,Q)
Michael McGowan

Respuestas:

24

Creo que llamar a la divergencia Kullback-Leibler "ganancia de información" no es estándar.

La primera definición es estándar.

EDITAR: Sin embargo, también se puede llamar información mutua.H(Y)H(Y|X)

Tenga en cuenta que no creo que encuentre ninguna disciplina científica que realmente tenga un esquema de nomenclatura estandarizado, preciso y consistente. Por lo tanto, siempre tendrá que mirar las fórmulas, porque generalmente le darán una mejor idea.

Libros de texto: ver "Buena introducción a diferentes tipos de entropía" .

También: Cosma Shalizi: Métodos y técnicas de la ciencia de sistemas complejos: una descripción general, capítulo 1 (pp. 33-114) en Thomas S. Deisboeck y J. Yasha Kresh (eds.), Ciencia de sistemas complejos en biomedicina http: // arxiv.org/abs/nlin.AO/0307015

Robert M. Gray: Entropía y teoría de la información http://ee.stanford.edu/~gray/it.html

David MacKay: Teoría de la información, inferencia y algoritmos de aprendizaje http://www.inference.phy.cam.ac.uk/mackay/itila/book.html

también, "¿Qué es" entropía y ganancia de información "?"

wolf.rauch
fuente
Gracias @wolf. Me inclino a aceptar esta respuesta. Si la primera definición es estándar, ¿cómo definiría la información mutua?
Amelio Vazquez-Reina
2
lo siento. la primera cantidad, también se suele llamar información mutua. Ese es un caso de nombres inconsistentes. Como dije, no creo que haya una correspondencia coherente, inequívoca e individual de conceptos y nombres. Por ejemplo, "información mutua" o "ganancia de información" es un caso especial de divergencia de KL, por lo que ese artículo de Wikipedia no está tan lejos. IG(Y|X)=H(Y)H(Y|X)
wolf.rauch
4

La divergencia de Kullback-Leiber entre y es la misma que la información mutua, que se puede derivar fácilmente:p(X,Y)P(X)P(Y)

I(X;Y)=H(Y)H(YX)=yp(y)logp(y)+x,yp(x)p(yx)logp(yx)=x,yp(x,y)logp(yx)y(xp(x,y))logp(y)=x,yp(x,y)logp(yx)x,yp(x,y)logp(y)=x,yp(x,y)logp(yx)p(y)=x,yp(x,y)logp(yx)p(x)p(y)p(x)=x,yp(x,y)logp(x,y)p(y)p(x)=DKL(P(X,Y)∣∣P(X)P(Y))

Nota:p(y)=xp(x,y)

Chris Elgoog
fuente
1

La información mutua se puede definir usando Kullback-Liebler como

I(X;Y)=DKL(p(x,y)||p(x)p(y)).
Yters
fuente
1

Extracción de información mutua de conjuntos de datos textuales como una característica para entrenar el modelo de aprendizaje automático: (la tarea era predecir la edad, el género y la personalidad de los bloggers)

ingrese la descripción de la imagen aquí

Krebto
fuente
1

Ambas definiciones son correctas y consistentes. No estoy seguro de lo que no está claro, ya que señala varios puntos que pueden necesitar aclaraciones.

Primero : son nombres diferentes para la misma cosa. En diferentes contextos, uno de estos nombres puede ser preferible, lo llamaré aquí Información .MIMutualInformation IGInformationGainIInformation

El segundo punto es la relación entre la divergencia Kullback-Leibler - e Información . La divergencia Kullback-Leibler es simplemente una medida de disimilitud entre dos distribuciones. La información se puede definir en estos términos de disimilitud de distribuciones (ver la respuesta de Yters). Entonces, la información es un caso especial de , donde se aplica para medir la diferencia entre la distribución conjunta real de dos variables (que captura su dependencia ) y la distribución conjunta hipotética de las mismas variables, si fueran ser independiente . Llamamos a esa cantidadDKLKLDKLDInformación .

La tercera punto de aclarar es la inconsistente, aunque estándar notación que se utiliza, es decir, que es a la vez la notación para la entropía conjunta y para Cross-entropía también.H(X,Y)

Entonces, por ejemplo, en la definición de Información : en ambas últimas líneas, es la entropía conjunta . Sin embargo, esto puede parecer inconsistente con la definición en la página de ganancia de información : pero no dejó de citar la aclaración importante - se usa allí como la cruz

H(X,Y)DKL(P||Q)=H(P,Q)-H(P)H(P,Q)DKL(P||Q)=H(P,Q)H(P)H(P,Q)-entropía (como es el caso también en la página de entropía cruzada ).

La entropía conjunta y la entropía cruzada NO son lo mismo.

Vea esto y esto donde se aborda esta notación ambigua y se ofrece una notación única para la entropía cruzada - Hq(p)

Espero ver esta notación aceptada y las páginas wiki actualizadas.

אלימלך שרייבר
fuente
de extrañar por qué las ecuaciones no se muestran correctamente ..
Shaohua Li