Divergencia de Jensen-Shannon para distribuciones normales bivariadas

8

Dadas dos distribuciones normales bivariadas y , estoy tratando de calcular la divergencia Jensen-Shannon entre ellos, definido (para el caso discreto) como: donde KLD es la divergencia Kullback-Leibler , y M = \ frac {1} {2} (P + Q) He encontrado la manera de calcular KLD en términos de los parámetros de las distribuciones, y por lo tanto JSD . PN(μp,Σp)QN(μq,Σq)JSD(PQ)=12(KLD(PM)+KLD(QM))KLDM=12(P+Q)
KLDJSD

Mis dudas son:

  1. Para calcular M , acabo de hacer MN(12(μp+μq),12(Σp+Σq)) . ¿Es esto correcto?

  2. Leí en [ 1 ] que el JSD está acotado, pero eso no parece ser cierto cuando lo calculo como se describió anteriormente para distribuciones normales. ¿Significa que estoy calculando mal, violando una suposición o algo más que no entiendo?

jorges
fuente

Respuestas:

8

La medida de punto medio es una distribución de mezcla de las dos normales multivariadas, por lo que no tiene la forma que usted proporciona en la publicación original Sea la función de densidad de probabilidad de un vector aleatorio y sea ​​el pdf de . Entonces el pdf de la medida del punto medio es Mφp(x)N(μp,Σp)φq(x)N(μq,Σq)

φm(x)=12φp(x)+12φq(x).

La divergencia de Jensen-Shannon es donde indica la (diferencial) de entropía correspondiente a la medida .

JSD=12(KL(PM)+KL(QM))=h(M)12(h(P)+h(Q)),
h(P)P

Por lo tanto, su cálculo se reduce a calcular entropías diferenciales. Para el multivariado normal , se sabe que la respuesta es y la prueba se puede encontrar en cualquier cantidad de fuentes, por ejemplo, Cover y Thomas (1991), pp. 230-231. Vale la pena señalar que la entropía de una normal multivariada es invariable con respecto a la media, como lo muestra la expresión anterior. Sin embargo, esto casi seguramente no se traslada al caso de una mezcla de normales. (Piense en elegir una normal amplia centrada en cero y otra normal concentrada donde esta última sea empujada lejos del origen).N(μ,Σ)

12log2((2πe)n|Σ|)

Para la medida del punto medio, las cosas parecen ser más complicadas. Que yo sepa, no hay una expresión de forma cerrada para la entropía diferencial . La búsqueda en Google produce un par de visitas potenciales, pero las principales no parecen dar formas cerradas en el caso general. Puede estar atascado con la aproximación de esta cantidad de alguna manera.h(M)

Tenga en cuenta también que el papel al que hace referencia no restringe el tratamiento solo a distribuciones discretas. Tratan un caso lo suficientemente general como para que su problema se encuentre dentro de su marco. Vea el centro de la columna dos en la página 1859. Aquí es donde también se muestra que la divergencia está limitada. Esto es válido para el caso de dos medidas generales y no se limita al caso de dos distribuciones discretas.

La divergencia de Jensen-Shannon ha aparecido un par de veces recientemente en otras preguntas en este sitio. Mira aquí y aquí .


Anexo : Tenga en cuenta que una mezcla de normales no es lo mismo que una combinación lineal de normales. La forma más sencilla de ver esto es considerar el caso unidimensional. Deje que y y que sean independientes entre sí. Luego, una mezcla de las dos normales que usan pesos para tiene la distribución X1N(μ,1)X2N(μ,1)(α,1α)α(0,1)

φm(x)=α12πe(x+μ)22+(1α)12πe(xμ)22.

La distribución de una combinación lineal de y usando los mismos pesos que antes es, a través de la propiedad estable de la distribución normal, es donde .X1X2

φ(x)=12πσ2e(x(12α)μ)22σ2,
σ2=α2+(1α)2

Estas dos distribuciones son muy diferentes, aunque tienen la misma media. Esto no es un accidente y se deriva de la linealidad de la expectativa.

Para comprender la distribución de la mezcla, imagine que tiene que ir a un consultor estadístico para que ella pueda producir valores de esta distribución para usted. Ella tiene una realización de en una palma y una realización de en la otra palma (aunque no sabes en cuál de las dos palmas está cada una). Ahora, su asistente lanza una moneda sesgada con probabilidad fuera de su vista y luego viene y susurra el resultado al oído del estadístico. Ella abre una de sus palmas y le muestra la realización, pero no le dice el resultado del lanzamiento de la moneda. Este proceso produce la distribución de la mezcla.X1X2α

Por otro lado, la combinación lineal puede entenderse en el mismo contexto. El consultor estadístico simplemente toma ambas realizaciones, multiplica la primera por y la segunda por , agrega el resultado y se lo muestra.α(1α)

cardenal
fuente
Gracias por tu respuesta. Entonces, mi problema radica en (cómo calculé) la distribución del punto medio. Disculpe mi ignorancia si estoy haciendo una pregunta obvia, pero ¿cómo la distribución del punto medio es diferente a la suma de variables aleatorias distribuidas normalmente ? ¿Es porque estamos en un caso bivariado?
jorges
2
@jorges La suma será normal y, por lo tanto, es simétrica con respecto a un solo modo. Cuando los dos medios están suficientemente separados (en comparación con sus DE), la distribución de la mezcla es bimodal . En ninguna circunstancia la mezcla es normal, excepto en los casos degenerados (medias iguales y SD iguales). Esto también es evidente a partir de la fórmula para : este promedio de exponenciales no se puede escribir como el exponencial de una forma cuadrática. φm
whuber
@whuber and cardinal: aunque intuitivamente entiendo lo que dices, parece que estoy teniendo un serio problema con los conceptos. Realmente no soy un estadístico, y creo que estoy mezclando "suma de variables aleatorias" con "distribución de mezclas". Realmente no estoy cuestionando qué cardenal y tú respondiste, sino más bien tratando de entender la diferencia y cuándo usar cuál, ya que podría estar cometiendo errores similares en otros lugares. Volveré a leer un poco y veré si puedo aclararme. Gracias por tus respuestas.
jorges
2

La respuesta del cardenal es correcta. Está intentando obtener una solución de forma cerrada para la divergencia Jensen-Shannon de dos gaussianos; No existe tal solución.

Sin embargo, puede calcular Jensen-Shannon con precisión arbitraria utilizando el muestreo de Monte Carlo. Lo que necesita es una forma de calcular y, por extensión, . La divergencia Kullback-Leibler se define como:KLD(P|M)KLD(Q|M)

KLD(P|M)=P(x)log(P(x)M(x))dx

La aproximación de Monte Carlo de esto es:

KLDapprox(P|M)=1ninlog(P(xi)M(xi))

donde se han muestreado de , lo cual es fácil ya que es un gaussiano en su caso. Como , . se puede calcular como .xiP(x)nKLDapprox(P|M)KLD(P|M)M(xi)M(xi)=12P(xi)+12Q(xi)

FrankD
fuente
HI @FrankD - Intenté implementar tu sugerencia aquí: stats.stackexchange.com/questions/345915/… aunque no creo que sea lo que querías decir. Los punteros son bienvenidos.
Astrid