¿Qué son "VGG54" y "VGG22" derivados de la CNG VGG19?

En el artículo Super-resolución de imagen única fotorrealista utilizando una red generativa adversaria de Christian Ledig et al., La distancia entre imágenes (utilizada en la función de pérdida) se calcula a partir de mapas de características extraídos de la red VGG19. Los dos utilizados en el artículo son (un poco confusos) llamados VGG22 y VGG54.

¿Qué son estos mapas de características?

¿Qué significan las designaciones "22" y "54"?

deep-learning cnn gan Lafayette
fuente

19 es el número de capas. ¿Probablemente el resto significa lo mismo?

Alex

Si fuera así de simple ... ;-) Estas son designaciones de mapeo del VGG19, no redes por derecho propio.

Lafayette

Nunca leo el periódico. Esto es lo primero que me viene a la mente cuando veo el acrónimo.

Alex

Su suposición es realmente razonable, pero dicen que no es el caso, solo se usa la red VGG19.

Lafayette

Respuestas:

Al leer el artículo, parece que definen VGG54 como la pérdida calculada a partir de la distancia euclidiana entre $\phi_{5,4}$ mapas de funciones derivados de imágenes de alta y baja resolución utilizando la red VGG19. Dónde $\phi_{i,j}$ se define como " el mapa de características obtenido por la j-ésima convolución (después de la activación) y antes de la i-ésima capa de agrupación máxima dentro de la red VGG19 ".

Carlos S. Na
fuente

Supongo que lo mismo es cierto para VGG22, es decir, es la pérdida calculada a partir de ϕ2,2. ¿Está bien?

Lafayette

Eso es correcto :)

Carlos S. Na

¿Puede detallar "el mapa de características obtenido por la j-ésima convolución (después de la activación) y antes de la capa i-ésima de agrupación máxima dentro de la red VGG19"?

ϕ_{5, 4}

$\phi_{5,4}$ medio

4^{t h}

$4^{th}$ capa antes

5^{t h}

$5^{th}$ capa de agrupación máxima ¿verdad? Pero

4^{t h}

$4^{th}$ La capa tiene tantos filtros (creo que 512). Entonces tendríamos 512 espacios de características. ¿Cuál elegir de esto? Además, ¿qué significa "después de la activación"?

Nagabhushan SN