Máxima discrepancia media (distribución de distancia)

15

Tengo dos conjuntos de datos (fuente y datos de destino) que siguen la distribución diferente. Estoy usando MMD, que es una distribución de distancia no paramétrica, para calcular la distribución marginal entre los datos de origen y destino.

fuente de datos, Xs

datos objetivo, Xt

Adaptación Matriz A

* Datos proyectados, Zs = A '* Xs y Zt = A' Xt

* MMD => Distancia (P (Xs), P (Xt)) = | media (A'Xs) - media (A ' Xt) |

Eso significa: la distancia de distribución entre los datos de origen y destino en el espacio original es equivalente a la distancia entre los medios de datos proyectados de origen y destino en el espacio incrustado.

Tengo una pregunta sobre el concepto de MMD.

En la fórmula MMD, ¿Por qué con la distancia de cálculo en el espacio latente, podríamos medir la distancia de distribución en el espacio original?

Gracias

Mahsa
fuente
Aún no has hecho una pregunta: ¡solo nos has dicho que te confundes!
whuber

Respuestas:

44

Podría ayudar dar un poco más de una visión general de MMD.

En general, MMD se define por la idea de representar distancias entre distribuciones como distancias entre incrustaciones medias de características. Eso es, digamos que tenemos distribuciones y sobre un conjunto . El MMD está definido por un mapa de características , donde es lo que se llama un espacio de Hilbert del núcleo de reproducción. En general, el MMD es PQX φ:XHH

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H.

Como ejemplo, podríamos tener y . En ese caso: por lo que este MMD es solo la distancia entre las medias de las dos distribuciones. Las distribuciones coincidentes como esta coincidirán con sus medias, aunque pueden diferir en su variación u otras formas.X=H=Rdφ(x)=x

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[X]EYQ[Y]Rd=μPμQRd,

Su caso es ligeramente diferente: tenemos y , con , donde es una matriz . Entonces tenemos Esta MMD es la diferencia entre dos proyecciones diferentes de la media. Si el mapeo contrario no es invertible,X=RdH=Rpφ(x)=AxAd×p

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[AX]EYQ[AY]Rp=AEXP[X]AEYQ[Y]Rp=A(μPμQ)Rp.
p<dA que la anterior: no distingue entre algunas distribuciones que hace la anterior.

También puedes construir distancias más fuertes. Por ejemplo, si y usa , el MMD se convierte en , y puede distinguir no solo distribuciones con diferentes medios sino también con diferentes variaciones.X=Rφ(x)=(x,x2)(EXEY)2+(EX2EY2)2

Y puede ser mucho más fuerte que eso: si asigna a un espacio Hilbert del núcleo de reproducción general, entonces puede aplicar el truco del núcleo para calcular el MMD, y resulta que muchos núcleos, incluido el núcleo Gaussiano, conducen al MMD siendo cero si y solo las distribuciones son idénticas.φ

Específicamente, dejando que , obtenga que puede estimar directamente con muestras.k(x,y)=φ(x),φ(y)H

MMD2(P,Q)=EXPφ(X)EYQφ(Y)H2=EXPφ(X),EXPφ(X)H+EYQφ(Y),EYQφ(Y)H2EXPφ(X),EYQφ(Y)H=EX,XPk(X,X)+EY,YQk(Y,Y)2EXP,YQk(X,Y)


Actualización: aquí es de donde viene el "máximo" en el nombre.

El mapa de características asigna a un espacio Hilbert del núcleo de reproducción. Estos son espacios de funciones y satisfacen una propiedad clave (llamada propiedad de reproducción ): para cualquier .φ:XHf,φ(x)H=f(x)fH

En el ejemplo más simple, con , vemos cada como la función correspondiente a alguna , por . Entonces la propiedad de reproducción debería tener sentido.X=H=Rdφ(x)=xfHwRdf(x)=wxf,φ(x)H=w,xRd

En entornos más complejos, como un núcleo gaussiano, es una función mucho más complicada, pero la propiedad de reproducción aún se mantiene.f

Ahora, podemos dar una caracterización alternativa de la MMD: La segunda línea es un hecho general sobre las normas en los espacios de Hilbert:

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]Hf,EYQ[φ(Y)]H=supfH:fH1EXP[f,φ(X)H]EYQ[f,φ(Y)H]=supfH:fH1EXP[f(X)]EYQ[f(Y)].
supf:f1f,gH=g se logra mediante . El cuarto depende de una condición técnica conocida como integrabilidad de Bochner, pero es cierto, por ejemplo, para núcleos limitados o distribuciones con soporte limitado. Luego, al final, usamos la propiedad de reproducción.f=g/g

Esta última línea es la razón por la que se llama "máxima discrepancia media": es la máxima, sobre las funciones de prueba en la unidad de bola de , de la diferencia media entre las dos distribuciones.fH

Dougal
fuente
Gracias por su explicación, se vuelve más claro para mí; Aún no entendí este concepto. Al principio, usted dijo: "MMD se define por la idea de representar distancias entre distribuciones como distancias entre incrustaciones medias de características". ¿Por qué esta idea se hace realidad?
Mahsa
"MMD se define por la idea de representar distancias entre distribuciones como distancias entre incrustaciones medias de características". ¿Por qué esta idea se hace realidad? ¿Está relacionada con el espacio RKHS?
Mahsa
1
Es solo una definición: puede comparar distribuciones comparando sus medias. O bien, puede comparar distribuciones comparando alguna transformación de sus medios; o comparando sus medios y variaciones; o comparando la media de cualquier otro mapa de características, incluido uno en un RKHS.
Dougal
Gracias por su respuesta; Voy a leer más sobre el mapa de características de RKHS; Me preguntaba, ¿por qué la distancia definida MMD en el mapa de características RKHS? Quiero decir, ¿cuál es el beneficio de RKHS en la definición de distancia MMD?
Mahsa
La explicación aquí se centra en la "Discrepancia media" en oposición a la "Discrepancia media máxima". ¿Alguien podría dar más detalles sobre la parte de "Maximización"?
Jiang Xiang
5

Así es como interpreté MMD. Dos distribuciones son similares si sus momentos son similares. Al aplicar un núcleo, puedo transformar la variable de modo que se calculen todos los momentos (primero, segundo, tercero, etc.). En el espacio latente puedo calcular la diferencia entre los momentos y promediarla. Esto da una medida de la similitud / disimilitud entre los conjuntos de datos.

rsambasivan
fuente