El límite de la información mutua da límites a la información mutua puntual

18

Supongamos que tengo dos conjuntos e y una distribución de probabilidad conjunta sobre estos conjuntos . Supongamos que y denotan las distribuciones marginales sobre e respectivamente.XYp(x,y)p(x)p(y)XY

La información mutua entre e se define como: XY

I(X;Y)=x,yp(x,y)log(p(x,y)p(x)p(y))

es decir, es el valor promedio de la información mutua puntual pmi .(x,y)log(p(x,y)p(x)p(y))

Supongamos que conozco los límites superior e inferior en pmi : es decir, sé que para todo cumple lo siguiente: -k \ leq \ log \ left (\ frac {p (x, y)}} {p ( x) p (y)} \ right) \ leq k(x,y)x,y

klog(p(x,y)p(x)p(y))k

¿Qué límite superior implica esto en I(X;Y) . Por supuesto, implica I(X;Y)k , pero me gustaría un límite más estricto si es posible. Esto me parece plausible porque p define una distribución de probabilidad, y pmi (x,y) no puede tomar su valor máximo (o incluso no ser negativo) para cada valor de x e y .

Florian
fuente
1
Cuando las probabilidades conjuntas y marginales son uniformes, pmi ( x , y ) es uniformemente cero (y, por lo tanto, no negativo, aparentemente contradiciendo su último enunciado, pero apenas). Me parece, si no me equivoco, que perturbar esta situación en pequeños subconjuntos de X×Y indica que los límites en pmi no dicen casi nada sobre I(X;Y) sí.
whuber
1
De hecho, si X e Y son independientes, entonces pmi(x,y) es constante, independientemente de las distribuciones marginales. Entonces, hay una clase completa de distribuciones p(x,y) para la cual pmi(x,y) obtiene su valor máximo para cada x e y .
cardenal
Sí, es cierto que pmi puede ser igual para todas las e , pero eso no descarta un límite más estricto. Por ejemplo, no es difícil demostrar que . Esto es cuando , y es un fortalecimiento no trivial del límite cuando . Me pregunto si hay límites no triviales que se mantienen de manera más general. (x,y)xyI(X;Y)k(ek1)k2k<1kk<1
Florian
1
Dudo que obtenga un mejor límite que para . Si desea mirar más detenidamente, intente reformular su pregunta en términos de la divergencia KL entre p (x) p (y) y p (x, y). La desigualdad de Pinsker proporciona un límite inferior en el MI que podría confirmar mi presentimiento. Consulte también la Sección 4 de ajmaa.org/RGMIA/papers/v2n4/relog.pdf . O(k2)k0
vqv

Respuestas:

5

Mi contribución consiste en un ejemplo. Ilustra algunos límites sobre cómo se puede limitar la información mutua dados los límites de la información mutua puntual.

Tome y para todos los . Para cualquier sea la solución a la ecuación Luego colocamos la masa de punto en puntos en el espacio del producto de tal manera que haya de estos puntos en cada fila y cada columna. (Esto se puede hacer de varias maneras. Comience, por ejemplo, con los primeros puntos en la primera fila y luego complete las filas restantes desplazando lap ( x ) = 1 / n x X m { 1 , , n / 2 } k > 0 m e k + ( n - m ) e - k = n . e k / n 2 n m { 1 ,X=Y={1,,n}p(x)=1/nxXm{1,,n/2}k>0

mek+(nm)ek=n.
ek/n2nm m m m{1,,n}2mmmseñala uno a la derecha con una condición de límite cíclico para cada fila). Colocamos la masa puntual en los puntos restantes . La suma de estas masas puntuales es por lo que dan una medida de probabilidad. Todas las probabilidades de puntos marginales son entonces ambas distribuciones marginales son uniformes.n 2 - n m n mek/n2n2nmm
nmn2ek+n2nmn2ek=mek+(nm)ekn=1,
mn2ek+mnn2ek=1n,

Por la construcción, está claro que para todo , y (después de algunos cálculos) con la información mutua se comporta como para y como para .pmi(x,y){k,k},x,y{1,,n}

I(X;Y)=knmn2ekkn2nmn2ek=k(1ekekek(ek+ek)ek),
k2/2k0kk

NRH
fuente
1

No estoy seguro de si esto es lo que está buscando, ya que es principalmente algebraico y no aprovecha las propiedades de p como una distribución de probabilidad, pero aquí hay algo que puede probar.

Debido a los límites en pmi, claramente y por lo tanto . Podemos sustituir en para obtenerp(x,y)p(x)p(y)ekp(x,y)p(x)p(y)ekp(x,y)I(X;Y)I(X;Y)x,yp(x)p(y)eklog(p(x)p(y)ekp(x)p(y))=x,yp(x)p(y)ekk

No estoy seguro de si eso es útil o no.

EDITAR: Tras una revisión adicional, creo que esto es realmente menos útil que el límite superior original de k. Sin embargo, no eliminaré esto en caso de que pueda insinuar un punto de partida.

Michael McGowan
fuente
El valor de este límite se hace evidente después de que nota y (desde ) que . x,yp(x)p(y)=1k0ek1
whuber
Sí, cuando me di cuenta de que hice mi edición.
Michael McGowan