¿Cuál es la codificación posicional en el modelo de transformador?

23

Soy nuevo en ML y esta es mi primera pregunta aquí, lo siento si mi pregunta es tonta.

Estoy tratando de leer y entender el documento. La atención es todo lo que necesitas y en él hay una imagen:

No sé qué es la codificación posicional . al escuchar algunos videos de youtube descubrí que es una incrustación que tiene tanto el significado como la posición de una palabra y tiene algo que ver con $sin(x)$ o $cos(x)$

pero no pude entender qué es exactamente y cómo está haciendo eso exactamente. Así que estoy aquí por un poco de ayuda. gracias por adelantado.

nlp encoding attention-mechanism transformer Peyman
fuente

30

$w$ $pos \in [0, L-1]$ $\boldsymbol{w}=(w_0,\cdots, w_{L-1})$ $e_{w}$ $d_{model}=4$

\begin{aligned} e_{w}^{'} & = e_{w} + [s i n (\frac{p o s}{10000^{0}}), c o s (\frac{p o s}{10000^{0}}), s i n (\frac{p o s}{10000^{2 / 4}}), c o s (\frac{p o s}{10000^{2 / 4}})] \\ = e_{w} + [s i n (p o s), c o s (p o s), s i n (\frac{p o s}{100}), c o s (\frac{p o s}{100})] \end{aligned}

$\begin{align*}e_{w}' &= e_{w} + \left[sin\left(\frac{pos}{10000^{0}}\right), cos\left(\frac{pos}{10000^{0}}\right),sin\left(\frac{pos}{10000^{2/4}}\right),cos\left(\frac{pos}{10000^{2/4}}\right)\right]\\ &=e_{w} + \left[sin\left(pos\right), cos\left(pos\right),sin\left(\frac{pos}{100}\right),cos\left(\frac{pos}{100}\right)\right]\\ \end{align*}$

donde la fórmula para la codificación posicional es la siguiente con (por lo tanto, ) en el documento original.

PE (p o s, 2 i) = s i n (\frac{p o s}{10000^{2 i / d_{m o d e l}}}),

$\text{PE}(pos,2i)=sin\left(\frac{pos}{10000^{2i/d_{model}}}\right),$

PE (p o s, 2 i + 1) = c o s (\frac{p o s}{10000^{2 i / d_{m o d e l}}}) .

$\text{PE}(pos,2i+1)=cos\left(\frac{pos}{10000^{2i/d_{model}}}\right).$

d_{m o d e l} = 512

$d_{model}=512$

i \in [0, 255]

$i \in [0, 255]$

Esta técnica se utiliza porque no hay una noción de orden de las palabras (primera palabra, segunda palabra, ..) en la arquitectura propuesta. Todas las palabras de secuencia de entrada se alimentan a la red sin un orden o posición especial (a diferencia de las arquitecturas comunes RNN o ConvNet), por lo tanto, el modelo no tiene idea de cómo se ordenan las palabras. En consecuencia, se agrega una señal dependiente de la posición a cada incrustación de palabras para ayudar al modelo a incorporar el orden de las palabras. Basado en experimentos, esta adición no solo evita destruir la información de incrustación sino que también agrega la información de posición vital. En el caso de RNNs, alimentamos las palabras secuencialmente a RNN, es decir, palabra-ésimo se alimenta en la etapa , que ayuda al modelo de incorporar el orden de las palabras. $n$ $n$

Este artículo de Jay Alammar explica el artículo con excelentes visualizaciones. Desafortunadamente, su ejemplo para la codificación posicional es incorrecto en este momento (usa para la primera mitad de las dimensiones de incrustación y para la segunda mitad, en lugar de usar para índices pares y para índices impares). $sin$ $cos$ $sin$ $cos$

Esmailian
fuente

1

También tiene este excelente artículo centrado exclusivamente en la inserción posicional: kazemnejad.com/blog/…

Yohan Obadia

6

La codificación posicional es una nueva representación de los valores de una palabra y su posición en una oración (dado que no es lo mismo estar al principio que al final o en el medio).

Pero hay que tener en cuenta que las oraciones pueden tener cualquier longitud, por lo que decir '' X '' es la tercera palabra de la oración 'no tiene sentido si hay oraciones de diferente longitud: la tercera en una oración de 3 palabras es completamente diferente al 3er en una oración de 20 palabras.

Lo que hace un codificador posicional es obtener ayuda de la naturaleza cíclica de las funciones y para devolver información de la posición de una palabra en una oración. $sin(x)$ $cos(x)$

Juan Esteban de la calle
fuente

2

gracias. ¿Podría explicar cómo este codificador posicional hace esto con y ?

s i n

$sin$

c o s

$cos$

Peyman

1

Para agregar a otras respuestas, la implementación de referencia de OpenAI lo calcula en un espacio de registro natural (para mejorar la precisión, creo. No estoy seguro si podrían haber usado el inicio de sesión en la base 2). No se les ocurrió la codificación. Aquí está la generación de la tabla de búsqueda PE reescrita en C como un ciclo for-for:

int d_model = 512, max_len = 5000;
double pe[max_len][d_model];

for (int i = 0; i < max_len; i++) {
   for (int k = 0; k < d_model; k = k + 2) {
      double div_term = exp(k * -log(10000.0) / d_model);
      pe[i][k] = sin(i * div_term);
      pe[i][k + 1] = cos(i * div_term);
   }
}

Eris
fuente

¿Cuál es la codificación posicional en el modelo de transformador?

Respuestas: