El enfoque de esta pregunta
"¿Cómo podemos ... procesar los datos de la distribución verdadera y los datos del modelo generativo en la misma iteración?
Analizando la Publicación Fundacional
En la página de referencia, Understanding Generative Adversarial Networks (2017) , el candidato doctoral Daniel Sieta hace referencia correcta a Generative Adversarial Networks, Goodfellow, Pouget-Abadie, Mirza, Xu, Warde-Farley, Ozair, Courville y Bengio, junio de 2014 . Sus estados abstractos son: "Proponemos un nuevo marco para estimar modelos generativos a través de un proceso de confrontación, en el que simultáneamente entrenamos dos modelos ..." Este documento original define dos modelos definidos como MLP (perceptrones multicapa).
- Modelo generativo, G
- Modelo discriminativo, D
Estos dos modelos se controlan de una manera en que uno proporciona una forma de retroalimentación negativa hacia el otro, por lo tanto, el término adversario.
- G está entrenado para capturar la distribución de datos de un conjunto de ejemplos lo suficientemente bien como para engañar a D.
- D está entrenado para descubrir si su entrada son simulacros de G o el conjunto de ejemplos para el sistema GAN.
(El conjunto de ejemplos para el sistema GAN a veces se denomina muestras reales, pero puede que no sean más reales que las generadas. Ambas son matrices numéricas en una computadora, una con un origen interno y la otra con una externa origen. Si los externos son de una cámara apuntando a alguna escena física no es relevante para la operación GAN).
Probablemente, engañar a D es sinónimo de maximizar la probabilidad de que D genere tantos falsos positivos y falsos negativos como categorizaciones correctas, 50% cada uno. En ciencia de la información, esto quiere decir que el límite de información que D tiene de G se aproxima a 0 cuando t se acerca al infinito. Es un proceso de maximizar la entropía de G desde la perspectiva de D, por lo tanto, el término entropía cruzada.
Cómo se logra la convergencia
Debido a que la función de pérdida reproducida de la escritura de Sieta de 2017 en la pregunta es la de D, diseñada para minimizar la entropía cruzada (o correlación) entre las dos distribuciones cuando se aplica al conjunto completo de puntos para un estado de entrenamiento dado.
H( ( x1, y1) , D ) = 1D ( x1)
Hay una función de pérdida separada para G, diseñada para maximizar la entropía cruzada. Observe que hay DOS niveles de granularidad de capacitación en el sistema.
- El de los movimientos del juego en un juego de dos jugadores.
- El de las muestras de entrenamiento
Estos producen iteraciones anidadas con la iteración externa de la siguiente manera.
- El entrenamiento de G se realiza utilizando la función de pérdida de G.
- Los patrones de entrada simulados se generan a partir de G en su estado actual de entrenamiento.
- El entrenamiento de D procede usando la función de pérdida de D.
- Repita si la entropía cruzada aún no está suficientemente maximizada, D aún puede discriminar.
Cuando D finalmente pierde el juego, hemos logrado nuestro objetivo.
- G recuperó la distribución de datos de entrenamiento
- D se ha reducido a ineficacia ("1/2 probabilidad en todas partes")
Por qué es necesaria la capacitación concurrente
Si los dos modelos no se entrenaron de un lado a otro para simular concurrencia, la convergencia en el plano de confrontación (la iteración externa) no se produciría en la solución única reclamada en el documento de 2014.
Más información
Más allá de la pregunta, el siguiente elemento de interés en el artículo de Sieta es que "un diseño deficiente de la función de pérdida del generador" puede conducir a valores de gradiente insuficientes para guiar el descenso y producir lo que a veces se denomina saturación. La saturación es simplemente la reducción de la señal de retroalimentación que guía el descenso en la retropropagación al ruido caótico que surge del redondeo de coma flotante. El término proviene de la teoría de la señal.
Sugiero estudiar el artículo de 2014 de Goodfellow et alia (los investigadores experimentados) para aprender sobre la tecnología GAN en lugar de la página de 2017.
Puede tratar una combinación de
z
entrada yx
entrada como una sola muestra, y evalúa qué tan bien el discriminador realizó la clasificación de cada una de ellas.Esta es la razón por la post más adelante en un solo separa
y
enE(p~data)
eE(z)
- Básicamente, usted tiene diferentes expectativas (y
s) para cada una de las entradas del discriminador y hay que medir dos cosas al mismo tiempo para evaluar qué tan bien el discriminador está realizando.Es por eso que la función de pérdida se concibe como una combinación de la clasificación positiva de la entrada real y la clasificación negativa de la entrada negativa.
fuente