La medida de punto medio es una distribución de mezcla de las dos normales multivariadas, por lo que no tiene la forma que usted proporciona en la publicación original Sea la función de densidad de probabilidad de un vector aleatorio y sea el pdf de . Entonces el pdf de la medida del punto medio es
Mφp(x)N(μp,Σp)φq(x)N(μq,Σq)
φm(x)=12φp(x)+12φq(x).
La divergencia de Jensen-Shannon es
donde indica la (diferencial) de entropía correspondiente a la medida .
JSD=12(KL(P∥M)+KL(Q∥M))=h(M)−12(h(P)+h(Q)),
h(P)P
Por lo tanto, su cálculo se reduce a calcular entropías diferenciales. Para el multivariado normal , se sabe que la respuesta es
y la prueba se puede encontrar en cualquier cantidad de fuentes, por ejemplo, Cover y Thomas (1991), pp. 230-231. Vale la pena señalar que la entropía de una normal multivariada es invariable con respecto a la media, como lo muestra la expresión anterior. Sin embargo, esto casi seguramente no se traslada al caso de una mezcla de normales. (Piense en elegir una normal amplia centrada en cero y otra normal concentrada donde esta última sea empujada lejos del origen).N(μ,Σ)
12log2((2πe)n|Σ|)
Para la medida del punto medio, las cosas parecen ser más complicadas. Que yo sepa, no hay una expresión de forma cerrada para la entropía diferencial . La búsqueda en Google produce un par de visitas potenciales, pero las principales no parecen dar formas cerradas en el caso general. Puede estar atascado con la aproximación de esta cantidad de alguna manera.h(M)
Tenga en cuenta también que el papel al que hace referencia no restringe el tratamiento solo a distribuciones discretas. Tratan un caso lo suficientemente general como para que su problema se encuentre dentro de su marco. Vea el centro de la columna dos en la página 1859. Aquí es donde también se muestra que la divergencia está limitada. Esto es válido para el caso de dos medidas generales y no se limita al caso de dos distribuciones discretas.
La divergencia de Jensen-Shannon ha aparecido un par de veces recientemente en otras preguntas en este sitio. Mira aquí y aquí .
Anexo : Tenga en cuenta que una mezcla de normales no es lo mismo que una combinación lineal de normales. La forma más sencilla de ver esto es considerar el caso unidimensional. Deje que y y que sean independientes entre sí. Luego, una mezcla de las dos normales que usan pesos para tiene la distribución
X1∼N(−μ,1)X2∼N(μ,1)(α,1−α)α∈(0,1)
φm(x)=α⋅12π−−√e−(x+μ)22+(1−α)⋅12π−−√e−(x−μ)22.
La distribución de una combinación lineal de y usando los mismos pesos que antes es, a través de la propiedad estable de la distribución normal, es
donde .X1X2
φℓ(x)=12πσ2−−−−√e−(x−(1−2α)μ)22σ2,
σ2=α2+(1−α)2
Estas dos distribuciones son muy diferentes, aunque tienen la misma media. Esto no es un accidente y se deriva de la linealidad de la expectativa.
Para comprender la distribución de la mezcla, imagine que tiene que ir a un consultor estadístico para que ella pueda producir valores de esta distribución para usted. Ella tiene una realización de en una palma y una realización de en la otra palma (aunque no sabes en cuál de las dos palmas está cada una). Ahora, su asistente lanza una moneda sesgada con probabilidad fuera de su vista y luego viene y susurra el resultado al oído del estadístico. Ella abre una de sus palmas y le muestra la realización, pero no le dice el resultado del lanzamiento de la moneda. Este proceso produce la distribución de la mezcla.X1X2α
Por otro lado, la combinación lineal puede entenderse en el mismo contexto. El consultor estadístico simplemente toma ambas realizaciones, multiplica la primera por y la segunda por , agrega el resultado y se lo muestra.α(1−α)
La respuesta del cardenal es correcta. Está intentando obtener una solución de forma cerrada para la divergencia Jensen-Shannon de dos gaussianos; No existe tal solución.
Sin embargo, puede calcular Jensen-Shannon con precisión arbitraria utilizando el muestreo de Monte Carlo. Lo que necesita es una forma de calcular y, por extensión, . La divergencia Kullback-Leibler se define como:KLD(P|M) KLD(Q|M)
La aproximación de Monte Carlo de esto es:
donde se han muestreado de , lo cual es fácil ya que es un gaussiano en su caso. Como , . se puede calcular como .xi P(x) n→∞ KLDapprox(P|M)→KLD(P|M) M(xi) M(xi)=12P(xi)+12Q(xi)
fuente