¿Qué es la activación de GELU?

18

Estaba revisando el documento BERT que usa GELU (Unidad lineal de error gaussiano) que establece la ecuación como que a su vez se aproxima a

G E L U (x) = x P (X \leq x) = x Φ (x) .

$GELU(x) = xP(X ≤ x) = xΦ(x).$

0.5 x (1 + t a n h [\sqrt{2 / π} (x + 0.044715 x^{3})])

$0.5x(1 + tanh[\sqrt{ 2/π}(x + 0.044715x^3)])$

¿Podría simplificar la ecuación y explicar cómo se ha aproximado?

activation-function bert mathematics Thanatoz
fuente

19

Función GELU

Podemos expandir la distribución acumulativa de $\mathcal{N}(0, 1)$ , es decir, $\Phi(x)$ , de la siguiente manera:

GELU (x) := x P (X \leq x) = x Φ (x) = 0.5 x (1 + erf (\frac{x}{\sqrt{2}}))

$\text{GELU}(x):=x{\Bbb P}(X \le x)=x\Phi(x)=0.5x\left(1+\text{erf}\left(\frac{x}{\sqrt{2}}\right)\right)$

Tenga en cuenta que esta es una definición , no una ecuación (o una relación). Los autores han proporcionado algunas justificaciones para esta propuesta, por ejemplo, una analogía estocástica , aunque matemáticamente, esta es solo una definición.

Aquí está la trama de GELU:

Aproximación Tanh

Para este tipo de aproximaciones numéricas, la idea clave es encontrar una función similar (principalmente basada en la experiencia), parametrizarla y luego ajustarla a un conjunto de puntos de la función original.

Sabiendo que está muy cerca de $\text{erf}(x)$ $\text{tanh}(x)$

y la primera derivada de coincide con la de en , que es , procedemos a ajustar (o con más términos) a un conjunto de puntos . $\text{erf}(\frac{x}{\sqrt{2}})$ $\text{tanh}(\sqrt{\frac{2}{\pi}}x)$ $x=0$ $\sqrt{\frac{2}{\pi}}$

tanh (\sqrt{\frac{2}{π}} (x + a x^{2} + b x^{3} + c x^{4} + d x^{5}))

$\text{tanh}\left(\sqrt{\frac{2}{\pi}}(x+ax^2+bx^3+cx^4+dx^5)\right)$

(x_{i}, erf (\frac{x_{i}}{\sqrt{2}}))

$\left(x_i, \text{erf}\left(\frac{x_i}{\sqrt{2}}\right)\right)$

He ajustado esta función a 20 muestras entre ( usando este sitio ), y aquí están los coeficientes: $(-1.5, 1.5)$

Al establecer , se estimó en . Con más muestras de un rango más amplio (ese sitio solo permitió 20), el coeficiente estará más cerca del del papel . Finalmente llegamos $a=c=d=0$ $b$ $0.04495641$ $b$ $0.044715$

$\text{GELU}(x)=x\Phi(x)=0.5x\left(1+\text{erf}\left(\frac{x}{\sqrt{2}}\right)\right)\simeq 0.5x\left(1+\text{tanh}\left(\sqrt{\frac{2}{\pi}}(x+0.044715x^3)\right)\right)$

con error cuadrático medio para . $\sim 10^{-8}$ $x \in [-10, 10]$

Tenga en cuenta que si no utilizamos la relación entre las primeras derivadas, el término se habría incluido en los parámetros de la siguiente manera que es menos bella (menos analítica, más numérica). $\sqrt{\frac{2}{\pi}}$

0.5 x (1 + tanh (0.797885 x + 0.035677 x^{3}))

$0.5x\left(1+\text{tanh}\left(0.797885x+0.035677x^3\right)\right)$

Utilizando la paridad

Como lo sugiere @BookYourLuck , podemos utilizar la paridad de funciones para restringir el espacio de los polinomios en los que buscamos. Es decir, dado que es una función extraña, es decir, , y también es una función extraña, función polinómica dentro también debe ser impar (solo debe tener poderes impares de ) para tener $\text{erf}$ $f(-x)=-f(x)$ $\text{tanh}$ $\text{pol}(x)$ $\text{tanh}$ $x$

erf (- x) ≃ tanh (pol (- x)) = tanh (- pol (x)) = - tanh (pol (x)) ≃ - erf (x)

$\text{erf}(-x)\simeq\text{tanh}(\text{pol}(-x))=\text{tanh}(-\text{pol}(x))=-\text{tanh}(\text{pol}(x))\simeq-\text{erf}(x)$

Anteriormente, tuvimos la suerte de terminar con (casi) cero los coeficientes de potencias pares y , sin embargo, en general, esto podría dar lugar a aproximaciones de baja calidad que, por ejemplo, tienen un término como que se cancela mediante términos adicionales (pares o impares) en lugar de simplemente optar por . $x^2$ $x^4$ $0.23x^2$ $0x^2$

Aproximación sigmoidea

Una relación similar se mantiene entre y (sigmoid), que se propone en el documento como otra aproximación, con error cuadrático medio para . $\text{erf}(x)$ $2\left(\sigma(x)-\frac{1}{2}\right)$ $\sim 10^{-4}$ $x \in [-10, 10]$

Aquí hay un código de Python para generar puntos de datos, ajustar las funciones y calcular los errores cuadrados medios:

import math
import numpy as np
import scipy.optimize as optimize


def tahn(xs, a):
    return [math.tanh(math.sqrt(2 / math.pi) * (x + a * x**3)) for x in xs]


def sigmoid(xs, a):
    return [2 * (1 / (1 + math.exp(-a * x)) - 0.5) for x in xs]


print_points = 0
np.random.seed(123)
# xs = [-2, -1, -.9, -.7, 0.6, -.5, -.4, -.3, -0.2, -.1, 0,
#       .1, 0.2, .3, .4, .5, 0.6, .7, .9, 2]
# xs = np.concatenate((np.arange(-1, 1, 0.2), np.arange(-4, 4, 0.8)))
# xs = np.concatenate((np.arange(-2, 2, 0.5), np.arange(-8, 8, 1.6)))
xs = np.arange(-10, 10, 0.001)
erfs = np.array([math.erf(x/math.sqrt(2)) for x in xs])
ys = np.array([0.5 * x * (1 + math.erf(x/math.sqrt(2))) for x in xs])

# Fit tanh and sigmoid curves to erf points
tanh_popt, _ = optimize.curve_fit(tahn, xs, erfs)
print('Tanh fit: a=%5.5f' % tuple(tanh_popt))

sig_popt, _ = optimize.curve_fit(sigmoid, xs, erfs)
print('Sigmoid fit: a=%5.5f' % tuple(sig_popt))

# curves used in https://mycurvefit.com:
# 1. sinh(sqrt(2/3.141593)*(x+a*x^2+b*x^3+c*x^4+d*x^5))/cosh(sqrt(2/3.141593)*(x+a*x^2+b*x^3+c*x^4+d*x^5))
# 2. sinh(sqrt(2/3.141593)*(x+b*x^3))/cosh(sqrt(2/3.141593)*(x+b*x^3))
y_paper_tanh = np.array([0.5 * x * (1 + math.tanh(math.sqrt(2/math.pi)*(x + 0.044715 * x**3))) for x in xs])
tanh_error_paper = (np.square(ys - y_paper_tanh)).mean()
y_alt_tanh = np.array([0.5 * x * (1 + math.tanh(math.sqrt(2/math.pi)*(x + tanh_popt[0] * x**3))) for x in xs])
tanh_error_alt = (np.square(ys - y_alt_tanh)).mean()

# curve used in https://mycurvefit.com:
# 1. 2*(1/(1+2.718281828459^(-(a*x))) - 0.5)
y_paper_sigmoid = np.array([x * (1 / (1 + math.exp(-1.702 * x))) for x in xs])
sigmoid_error_paper = (np.square(ys - y_paper_sigmoid)).mean()
y_alt_sigmoid = np.array([x * (1 / (1 + math.exp(-sig_popt[0] * x))) for x in xs])
sigmoid_error_alt = (np.square(ys - y_alt_sigmoid)).mean()

print('Paper tanh error:', tanh_error_paper)
print('Alternative tanh error:', tanh_error_alt)
print('Paper sigmoid error:', sigmoid_error_paper)
print('Alternative sigmoid error:', sigmoid_error_alt)

if print_points == 1:
    print(len(xs))
    for x, erf in zip(xs, erfs):
        print(x, erf)

Salida:

Tanh fit: a=0.04485
Sigmoid fit: a=1.70099
Paper tanh error: 2.4329173471294176e-08
Alternative tanh error: 2.698034519269613e-08
Paper sigmoid error: 5.6479106346814546e-05
Alternative sigmoid error: 5.704246564663601e-05

Esmailian
fuente

2

¿Por qué se necesita la aproximación? ¿No podrían simplemente usar la función erf?

SebiSebi

8

Φ (x) = \frac{1}{2} e r f c (- \frac{x}{\sqrt{2}}) = \frac{1}{2} (1 + e r f (\frac{x}{\sqrt{2}}))

$\Phi(x) = \frac12 \mathrm{erfc}\left(-\frac{x}{\sqrt{2}}\right) = \frac12 \left(1 + \mathrm{erf}\left(\frac{x}{\sqrt2}\right)\right)$

e r f

$\mathrm{erf}$

e r f (\frac{x}{\sqrt{2}}) \approx \tanh (\sqrt{\frac{2}{π}} (x + a x^{3}))

$\mathrm{erf}\left(\frac x {\sqrt2}\right) \approx \tanh\left(\sqrt{\frac2\pi} \left(x + a x^3\right)\right)$

a \approx 0.044715

$a \approx 0.044715$

$x$ $[-1, 1]$ $x$

\tanh (x) = x - \frac{x^{3}}{3} + o (x^{3})

$\tanh(x) = x - \frac{x^3}{3} + o(x^3)$

e r f (x) = \frac{2}{\sqrt{π}} (x - \frac{x^{3}}{3}) + o (x^{3}) .

$\mathrm{erf}(x) = \frac{2}{\sqrt{\pi}} \left(x - \frac{x^3}{3}\right) + o(x^3).$

\tanh (\sqrt{\frac{2}{π}} (x + a x^{3})) = \sqrt{\frac{2}{π}} (x + (a - \frac{2}{3 π}) x^{3}) + o (x^{3})

$\tanh\left(\sqrt{\frac2\pi} \left(x + a x^3\right)\right) = \sqrt\frac{2}{\pi} \left(x + \left(a-\frac{2}{3\pi}\right)x^3\right) + o(x^3)$

e r f (\frac{x}{\sqrt{2}}) = \sqrt{\frac{2}{π}} (x - \frac{x^{3}}{6}) + o (x^{3}) .

$\mathrm{erf}\left(\frac x {\sqrt2}\right) = \sqrt\frac2\pi \left(x - \frac{x^3}{6}\right) + o(x^3).$

x^{3}

$x^3$

a \approx 0.04553992412

$a \approx 0.04553992412$

0.044715

$0.044715$

BookYourLuck
fuente