¿Las GAN (redes de confrontación generativas) también son posibles para el texto?

14

¿Son las GAN (redes de confrontación generativas) buenas solo para imágenes, o podrían usarse también para texto?

Como, entrenar a una red para generar textos significativos a partir de un resumen.

UPD - citas del inventor de GAN Ian Goodfellow.

Las GAN no se han aplicado a la PNL porque las GAN solo se definen para datos con valor real. ( 2016 ) fuente

No es una idea fundamentalmente defectuosa. Debería ser posible hacer al menos uno de los siguientes ... (2017) fuente

J. Doe
fuente
2
La cita que cita es de enero de 2016, por lo que no está muy actualizada. Aquí hay una respuesta más reciente (diciembre de 2016) también de Ian Goodfellow sobre el mismo tema, donde menciona algunas formas de usar las GAN con texto.
ncasas el

Respuestas:

17

Sí, las GAN se pueden usar para texto. Sin embargo, existe un problema en la combinación de cómo funcionan las GAN y cómo las redes neuronales generan normalmente el texto:

  • Las GAN funcionan mediante la propagación de gradientes a través de la composición de Generador y Discriminador.
  • El texto normalmente se genera al tener una capa softmax final sobre el espacio del token, es decir, la salida de la red es normalmente la probabilidad de generar cada token (es decir, una unidad estocástica discreta).

Estas 2 cosas no funcionan bien juntas por sí mismas, porque no puede propagar gradientes a través de unidades estocásticas discretas. Hay dos enfoques principales para lidiar con esto: el algoritmo REINFORCE y la reparametrización Gumbel-Softmax (también conocida como la distribución de Concreto ). Tenga en cuenta que se sabe que REINFORCE tiene una gran varianza, por lo que necesita grandes cantidades de datos para obtener buenas estimaciones de gradiente.

Como ejemplo de REINFORCE para GAN textuales, puede consultar el artículo de SeqGAN . Un ejemplo de Gumbel-Softmax puede consultar este artículo .

Otra opción completamente diferente es no tener una unidad estocástica discreta como salida del generador (por ejemplo, generar tokens de forma determinista en el espacio incrustado), eliminando así el problema original de propagación hacia atrás a través de ellos.

ncasas
fuente
3

Hay una investigación aún más específica sobre este tema:

El generador entrenado es capaz de producir oraciones con cierto nivel de gramática y lógica.

Xuerong Xiao, "Generación de texto utilizando entrenamiento generativo adversarial"

Esta pregunta se relaciona con esta: https://linguistics.stackexchange.com/questions/26448/how-to-translate-pelevins-creative-unit-idea-to-a-scientific-problem

J. Doe
fuente
1
Parece que esta pregunta se ha eliminado, ¿puede proporcionar los detalles linguistics.stackexchange.com/questions/26448/…
Shakti
0

Sí, ahora las GAN también se pueden usar para datos discretos. La primera instancia de esta intuición se produjo cuando Wasserstein GANs (WGAN) surgió. Ian Goodfellow abordó un enfoque de Aprendizaje por refuerzo para este problema en la Conferencia NIPS 2016 Además, este artículo trata sobre los avances en GAN con respecto a los datos discretos.

vignesh_md
fuente