Distancia del motor de la Tierra (EMD) entre dos gaussianos

26

¿Existe una fórmula de forma cerrada para (o algún tipo de límite en) el EMD entre y ?x 2N ( μ 2 , Σ 2 )x1N(μ1,Σ1)x2N(μ2,Σ2)

ifog
fuente
2
De acuerdo con en.wikipedia.org/wiki/Earth_mover%27s_distance, el EMD es el mismo que la distancia de Mallows o Wasserstein, por lo que puede probar eso en Google.
kjetil b halvorsen
2
Puede encontrar este documento útil: vldb.org/pvldb/vol5/p205_brianeruttenberg_vldb2012.pdf
jojer

Respuestas:

27

La distancia del motor de la tierra se puede escribir comoEMD(P,Q)=infEXY , donde el infimum se toma sobre todas las distribuciones conjuntas deX yY con marginalesXP ,YQ . Esto también se conoce como la primera distancia de Wasserstein , que esWp=inf(EXYp)1/p con el mismo infimum.

Deje XP=N(μx,Σx) , YQ=N(μy,Σy) .

EXYE(XY)=μxμy,
inferior: según la desigualdad de Jensen, dado que las normas son convexas, \ E \ lVert X - Y \ rVert \ ge \ lVert \ E (X - Y) \ rVert = \ lVert \ mu_x - \ mu_y \ rVert, por lo que el EMD es siempre al menos la distancia entre los medios (para cualquier distribución).

W2 superior basado en W_2 : Nuevamente por la desigualdad de Jensen, (EXY)2EXY2 . Así W1W2 . Pero Dowson y Landau (1982) establecen que

W2(P,Q)2=μxμy2+tr(Σx+Σy2(ΣxΣy)1/2),
dando un límite superior en EMD=W1 .

Un límite superior más apretado: considere el acoplamiento Este es el mapa derivado por Knott y Smith (1984) , Sobre el mapeo óptimo de distribuciones , Journal of Optimization Theory and Applications, 43 (1) pp 39-49 como el mapeo óptimo para ; Vea también esta publicación de blog . Tenga en cuenta que y

XN(μx,Σx)Y=μy+Σx12(Σx12ΣyΣx12)12Σx12A(Xμx).
W2A=AT
EY=μy+A(EXμx)=μyVarY=AΣxAT=Σx12(Σx12ΣyΣx12)12Σx12ΣxΣx12(Σx12ΣyΣx12)12Σx12=Σx12(Σx12ΣyΣx12)Σx12=Σy,
para que el acoplamiento sea válido.

La distancia es entonces , donde ahora que es normal con XYD

D=XY=XμyA(Xμx)=(IA)Xμy+Aμx,
ED=μxμyVarD=(IA)Σx(IA)T=Σx+AΣxAAΣxΣxA=Σx+ΣyΣx12(Σx12ΣyΣx12)12Σx12Σx12(Σx12ΣyΣx12)12Σx12.

Por lo tanto, un límite superior para es . Desafortunadamente, una forma cerrada para esta expectativa es sorprendentemente desagradable de escribir para las normales multivariadas generales: vea esta pregunta , así como esta .W1(P,Q)ED

Si la varianza de termina siendo esférica (por ejemplo, si , , entonces la varianza de convierte en ), la primera pregunta da la respuesta en términos de un polinomio de Laguerre generalizado.DΣx=σx2IΣy=σy2ID(σxσy)2I

En general, tenemos un límite superior simple para basado en la desigualdad de Jensen, derivado, por ejemplo, en esa primera pregunta: ED

(ED)2ED2=μxμy2+tr(Σx+ΣyAΣxΣxA)=μxμy2+tr(Σx)+tr(Σy)2tr(Σx12(Σx12ΣyΣx12)12Σx12)=μxμy2+tr(Σx)+tr(Σy)2tr((Σx12ΣyΣx12)12)=W2(P,Q)2.
La igualdad al final se debe a que las matrices y son similares , por lo que tienen los mismos valores propios y, por lo tanto, sus raíces cuadradas tienen el mismo rastro.ΣxΣyΣx12ΣyΣx12=Σx12(ΣxΣy)Σx12

Esta desigualdad es estricta siempre que no sea degenerada, que es la mayoría de los casos cuando .DΣxΣy

Una conjetura : Tal vez este límite superior más cercano, , es ajustado. Por otra parte, tuve un límite superior diferente aquí durante mucho tiempo que que era apretado, que de hecho era más flojo que el , por lo que tal vez no deberías confiar demasiado en esta conjetura. :)EDW2

Dougal
fuente