Tengo dos conjuntos de datos (fuente y datos de destino) que siguen la distribución diferente. Estoy usando MMD, que es una distribución de distancia no paramétrica, para calcular la distribución marginal entre los datos de origen y destino.
fuente de datos, Xs
datos objetivo, Xt
Adaptación Matriz A
* Datos proyectados, Zs = A '* Xs y Zt = A' Xt
* MMD => Distancia (P (Xs), P (Xt)) = | media (A'Xs) - media (A ' Xt) |
Eso significa: la distancia de distribución entre los datos de origen y destino en el espacio original es equivalente a la distancia entre los medios de datos proyectados de origen y destino en el espacio incrustado.
Tengo una pregunta sobre el concepto de MMD.
En la fórmula MMD, ¿Por qué con la distancia de cálculo en el espacio latente, podríamos medir la distancia de distribución en el espacio original?
Gracias
Respuestas:
Podría ayudar dar un poco más de una visión general de MMD.
En general, MMD se define por la idea de representar distancias entre distribuciones como distancias entre incrustaciones medias de características. Eso es, digamos que tenemos distribuciones y sobre un conjunto . El MMD está definido por un mapa de características , donde es lo que se llama un espacio de Hilbert del núcleo de reproducción. En general, el MMD esP Q X φ:X→H H MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
Como ejemplo, podríamos tener y . En ese caso: por lo que este MMD es solo la distancia entre las medias de las dos distribuciones. Las distribuciones coincidentes como esta coincidirán con sus medias, aunque pueden diferir en su variación u otras formas.X=H=Rd φ(x)=x MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
Su caso es ligeramente diferente: tenemos y , con , donde es una matriz . Entonces tenemos Esta MMD es la diferencia entre dos proyecciones diferentes de la media. Si el mapeo contrario no es invertible,X=Rd H=Rp φ(x)=A′x A d×p MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp. p<d A′ que la anterior: no distingue entre algunas distribuciones que hace la anterior.
También puedes construir distancias más fuertes. Por ejemplo, si y usa , el MMD se convierte en , y puede distinguir no solo distribuciones con diferentes medios sino también con diferentes variaciones.X=R φ(x)=(x,x2) (EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
Y puede ser mucho más fuerte que eso: si asigna a un espacio Hilbert del núcleo de reproducción general, entonces puede aplicar el truco del núcleo para calcular el MMD, y resulta que muchos núcleos, incluido el núcleo Gaussiano, conducen al MMD siendo cero si y solo las distribuciones son idénticas.φ
Específicamente, dejando que , obtenga que puede estimar directamente con muestras.k(x,y)=⟨φ(x),φ(y)⟩H MMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
Actualización: aquí es de donde viene el "máximo" en el nombre.
El mapa de características asigna a un espacio Hilbert del núcleo de reproducción. Estos son espacios de funciones y satisfacen una propiedad clave (llamada propiedad de reproducción ): para cualquier .φ:X→H ⟨f,φ(x)⟩H=f(x) f∈H
En el ejemplo más simple, con , vemos cada como la función correspondiente a alguna , por . Entonces la propiedad de reproducción debería tener sentido.X=H=Rd φ(x)=x f∈H w∈Rd f(x)=w′x ⟨f,φ(x)⟩H=⟨w,x⟩Rd
En entornos más complejos, como un núcleo gaussiano, es una función mucho más complicada, pero la propiedad de reproducción aún se mantiene.f
Ahora, podemos dar una caracterización alternativa de la MMD: La segunda línea es un hecho general sobre las normas en los espacios de Hilbert:MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)]. supf:∥f∥≤1⟨f,g⟩H=∥g∥ se logra mediante . El cuarto depende de una condición técnica conocida como integrabilidad de Bochner, pero es cierto, por ejemplo, para núcleos limitados o distribuciones con soporte limitado. Luego, al final, usamos la propiedad de reproducción.f=g/∥g∥
Esta última línea es la razón por la que se llama "máxima discrepancia media": es la máxima, sobre las funciones de prueba en la unidad de bola de , de la diferencia media entre las dos distribuciones.f H
fuente
Así es como interpreté MMD. Dos distribuciones son similares si sus momentos son similares. Al aplicar un núcleo, puedo transformar la variable de modo que se calculen todos los momentos (primero, segundo, tercero, etc.). En el espacio latente puedo calcular la diferencia entre los momentos y promediarla. Esto da una medida de la similitud / disimilitud entre los conjuntos de datos.
fuente