Máxima discrepancia media (distribución de distancia)

Podría ayudar dar un poco más de una visión general de MMD. $\DeclareMathOperator{\E}{\mathbb E}\newcommand{\R}{\mathbb R}\newcommand{\X}{\mathcal X}\newcommand{\h}{\mathcal H}\DeclareMathOperator{\MMD}{MMD}$

En general, MMD se define por la idea de representar distancias entre distribuciones como distancias entre incrustaciones medias de características. Eso es, digamos que tenemos distribuciones y sobre un conjunto . El MMD está definido por un mapa de características , donde es lo que se llama un espacio de Hilbert del núcleo de reproducción. En general, el MMD es $P$ $Q$ $\X$ $\varphi : \X \to \h$ $\mathcal H$

MMD (P, Q) = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} .

$\MMD(P, Q) = \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h .$

Como ejemplo, podríamos tener y . En ese caso: por lo que este MMD es solo la distancia entre las medias de las dos distribuciones. Las distribuciones coincidentes como esta coincidirán con sus medias, aunque pueden diferir en su variación u otras formas. $\X = \h = \R^d$ $\varphi(x) = x$

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = ‖ E_{X \sim P} [X] - E_{Y \sim Q} [Y] ‖_{R^{d}} \\ = ‖ μ_{P} - μ_{Q} ‖_{R^{d}}, \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h \\&= \lVert \E_{X \sim P}[ X ] - \E_{Y \sim Q}[ Y ] \rVert_{\R^d} \\&= \lVert \mu_P - \mu_Q \rVert_{\R^d} ,\end{align}$

Su caso es ligeramente diferente: tenemos y , con , donde es una matriz . Entonces tenemos Esta MMD es la diferencia entre dos proyecciones diferentes de la media. Si el mapeo contrario no es invertible, $\mathcal X = \mathbb R^d$ $\mathcal H = \mathbb R^p$ $\varphi(x) = A' x$ $A$ $d \times p$

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = ‖ E_{X \sim P} [A^{'} X] - E_{Y \sim Q} [A^{'} Y] ‖_{R^{p}} \\ = ‖ A^{'} E_{X \sim P} [X] - A^{'} E_{Y \sim Q} [Y] ‖_{R^{p}} \\ = ‖ A^{'} (μ_{P} - μ_{Q}) ‖_{R^{p}} . \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h \\&= \lVert \E_{X \sim P}[ A' X ] - \E_{Y \sim Q}[ A' Y ] \rVert_{\R^p} \\&= \lVert A' \E_{X \sim P}[ X ] - A' \E_{Y \sim Q}[ Y ] \rVert_{\R^p} \\&= \lVert A'( \mu_P - \mu_Q ) \rVert_{\R^p} .\end{align}$

p < d

$p < d$

A^{'}

$A'$ que la anterior: no distingue entre algunas distribuciones que hace la anterior.

También puedes construir distancias más fuertes. Por ejemplo, si y usa , el MMD se convierte en , y puede distinguir no solo distribuciones con diferentes medios sino también con diferentes variaciones. $\X = \R$ $\varphi(x) = (x, x^2)$ $\sqrt{(\E X - \E Y)^2 + (\E X^2 - \E Y^2)^2}$

Y puede ser mucho más fuerte que eso: si asigna a un espacio Hilbert del núcleo de reproducción general, entonces puede aplicar el truco del núcleo para calcular el MMD, y resulta que muchos núcleos, incluido el núcleo Gaussiano, conducen al MMD siendo cero si y solo las distribuciones son idénticas. $\varphi$

Específicamente, dejando que , obtenga que puede estimar directamente con muestras. $k(x, y) = \langle \varphi(x), \varphi(y) \rangle_\h$

\begin{aligned} {MMD}^{2} (P, Q) & = ‖ E_{X \sim P} φ (X) - E_{Y \sim Q} φ (Y) ‖_{H}^{2} \\ = ⟨ E_{X \sim P} φ (X), E_{X^{'} \sim P} φ (X^{'}) ⟩_{H} + ⟨ E_{Y \sim Q} φ (Y), E_{Y^{'} \sim Q} φ (Y^{'}) ⟩_{H} - 2 ⟨ E_{X \sim P} φ (X), E_{Y \sim Q} φ (Y) ⟩_{H} \\ = E_{X, X^{'} \sim P} k (X, X^{'}) + E_{Y, Y^{'} \sim Q} k (Y, Y^{'}) - 2 E_{X \sim P, Y \sim Q} k (X, Y) \end{aligned}

$\begin{align} \MMD^2(P, Q) &= \lVert \E_{X \sim P} \varphi(X) - \E_{Y \sim Q} \varphi(Y) \rVert_\h^2 \\&= \langle \E_{X \sim P} \varphi(X), \E_{X' \sim P} \varphi(X') \rangle_\h + \langle \E_{Y \sim Q} \varphi(Y), \E_{Y' \sim Q} \varphi(Y') \rangle_\h - 2 \langle \E_{X \sim P} \varphi(X), \E_{Y \sim Q} \varphi(Y) \rangle_\h \\&= \E_{X, X' \sim P} k(X, X') + \E_{Y, Y' \sim Q} k(Y, Y') - 2 \E_{X \sim P, Y \sim Q} k(X, Y) \end{align}$

Actualización: aquí es de donde viene el "máximo" en el nombre.

El mapa de características asigna a un espacio Hilbert del núcleo de reproducción. Estos son espacios de funciones y satisfacen una propiedad clave (llamada propiedad de reproducción ): para cualquier . $\varphi: \X \to \h$ $\langle f, \varphi(x) \rangle_\h = f(x)$ $f \in \h$

En el ejemplo más simple, con , vemos cada como la función correspondiente a alguna , por . Entonces la propiedad de reproducción debería tener sentido. $\X = \h = \R^d$ $\varphi(x) = x$ $f \in \h$ $w \in \R^d$ $f(x) = w' x$ $\langle f, \varphi(x) \rangle_\h = \langle w, x \rangle_{\R^d}$

En entornos más complejos, como un núcleo gaussiano, es una función mucho más complicada, pero la propiedad de reproducción aún se mantiene. $f$

Ahora, podemos dar una caracterización alternativa de la MMD: La segunda línea es un hecho general sobre las normas en los espacios de Hilbert:

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} ⟨ f, E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ⟩_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} ⟨ f, E_{X \sim P} [φ (X)] ⟩_{H} - ⟨ f, E_{Y \sim Q} [φ (Y)] ⟩_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} E_{X \sim P} [⟨ f, φ (X) ⟩_{H}] - E_{Y \sim Q} [⟨ f, φ (Y) ⟩_{H}] \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} E_{X \sim P} [f (X)] - E_{Y \sim Q} [f (Y)] . \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[\varphi(X)] - \E_{Y \sim Q}[\varphi(Y)] \rVert_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \langle f, \E_{X \sim P}[\varphi(X)] - \E_{Y \sim Q}[\varphi(Y)] \rangle_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \langle f, \E_{X \sim P}[\varphi(X)] \rangle_\h - \langle f, \E_{Y \sim Q}[\varphi(Y)] \rangle_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \E_{X \sim P}[\langle f, \varphi(X)\rangle_\h] - \E_{Y \sim Q}[\langle f, \varphi(Y) \rangle_\h] \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \E_{X \sim P}[f(X)] - \E_{Y \sim Q}[f(Y)] .\end{align}$

sup_{f : ‖ f ‖ \leq 1} ⟨ f, g ⟩_{H} = ‖ g ‖

$\sup_{f : \lVert f \rVert \le 1} \langle f, g \rangle_\h = \lVert g \rVert$ se logra mediante . El cuarto depende de una condición técnica conocida como integrabilidad de Bochner, pero es cierto, por ejemplo, para núcleos limitados o distribuciones con soporte limitado. Luego, al final, usamos la propiedad de reproducción.

f = g / ‖ g ‖

$f = g / \lVert g \rVert$

Esta última línea es la razón por la que se llama "máxima discrepancia media": es la máxima, sobre las funciones de prueba en la unidad de bola de , de la diferencia media entre las dos distribuciones. $f$ $\h$

Dougal
fuente

Gracias por su explicación, se vuelve más claro para mí; Aún no entendí este concepto. Al principio, usted dijo: "MMD se define por la idea de representar distancias entre distribuciones como distancias entre incrustaciones medias de características". ¿Por qué esta idea se hace realidad?

Mahsa

"MMD se define por la idea de representar distancias entre distribuciones como distancias entre incrustaciones medias de características". ¿Por qué esta idea se hace realidad? ¿Está relacionada con el espacio RKHS?

Mahsa

Es solo una definición: puede comparar distribuciones comparando sus medias. O bien, puede comparar distribuciones comparando alguna transformación de sus medios; o comparando sus medios y variaciones; o comparando la media de cualquier otro mapa de características, incluido uno en un RKHS.

Dougal

Gracias por su respuesta; Voy a leer más sobre el mapa de características de RKHS; Me preguntaba, ¿por qué la distancia definida MMD en el mapa de características RKHS? Quiero decir, ¿cuál es el beneficio de RKHS en la definición de distancia MMD?

Mahsa

La explicación aquí se centra en la "Discrepancia media" en oposición a la "Discrepancia media máxima". ¿Alguien podría dar más detalles sobre la parte de "Maximización"?

Jiang Xiang

Máxima discrepancia media (distribución de distancia)

Respuestas: