He entendido cómo funciona GAN, mientras que dos redes (generativa y discriminativa) compiten entre sí. He creado un DCGAN (GAN con discriminador convolucional y generador desconvolucional) que ahora genera con éxito dígitos escritos a mano similares a los del conjunto de datos MNIST.
He leído mucho sobre las aplicaciones de GAN para extraer características de las imágenes. ¿Cómo puedo usar mi modelo GAN entrenado (en el conjunto de datos MNIST) para extraer la función de las imágenes escritas a mano MNIST?
Respuestas:
Por lo general, para extraer funciones, puede usar la capa superior de la red antes de la salida. La intuición es que estas características son linealmente separables porque la capa superior es solo una regresión logística.
Para las GAN, puede usar las funciones del discriminador. Se supone que estas características dan una probabilidad si la entrada proviene del conjunto de datos de entrenamiento, "imágenes reales". En el documento DCGAN de Radford , utilizan todas las capas convolucionales del discriminador y ejecutan un extracto de capa de agrupación máxima para CIFAR-10.
fuente
La respuesta de Kenny es correcta: si está utilizando D convolucional , la salida de capas antes de densas puede servir como características. Mi intuición es que funcionará mejor para AC-GAN (o arquitecturas similares, que hacen que D clasifique la entrada además de determinar si es falsa o real).
Existe un enfoque llamado BiGAN que agrega un componente Encoder capaz de mapear muestras generadas y de entrenamiento a la distribución latente z utilizada para "inicializar" el generador. Los autores muestran que puede usarse efectivamente como un conjunto de características para el aprendizaje de transferencia y otras tareas.
fuente
Como la GAN consta de dos partes: el generador y el discriminador, hay dos formas de utilizar GAN como extractor de funciones:
La segunda forma es más controvertida. Algunos estudios [1] pensaron que, intuitivamente, como el objetivo del discriminador es distinguir las muestras generadas de las muestras reales, solo se centrará en la diferencia entre estos dos tipos de muestras. Pero lo que tiene sentido es la diferencia entre las muestras reales, que son las muestras utilizadas por las tareas posteriores.
Intenté estudiar esto y descubrí que la característica extraída se puede factorizar en dos subespacios ortogonales . El primer espacio contribuye a la tarea discriminadora, mientras que el segundo está libre de ella. Como en la mayoría de los casos, las características utilizadas para distinguir las muestras reales de las generadas son ruido, el segundo espacio de características estará libre de ruido. Desde esta perspectiva, aunque la tarea del discriminador no se centrará en la diferencia entre muestras reales, que son útiles para las tareas posteriores, las funciones libres de ruido contenidas en el segundo subespacio funcionarán.
[1] Jost Tobias Springenberg. Aprendizaje no supervisado y semi-supervisado con redes adversas generativas categóricas. arXiv: 1511.06390 [cs, stat], abril de 2016. preimpresión de arXiv. arXiv: 1511.06390 [stat.ML]. Ithaca, Nueva York: Biblioteca de la Universidad de Cornell.
fuente