Definimos una arquitectura de cuello de botella como el tipo que se encuentra en el documento de ResNet donde [dos capas de conv 3x3] se reemplazan por [una 1x1 conv, una 3x3 conv, y otra 1x1 conv capa].
Entiendo que las capas conv 1x1 se usan como una forma de reducción de dimensión (y restauración), que se explica en otra publicación . Sin embargo, no tengo claro por qué esta estructura es tan efectiva como el diseño original.
Algunas buenas explicaciones pueden incluir: ¿Qué longitud de zancada se utiliza y en qué capas? ¿Cuáles son las dimensiones de entrada y salida de ejemplo de cada módulo? ¿Cómo se representan los mapas de características de 56x56 en el diagrama de arriba? ¿El 64-d se refiere al número de filtros, por qué difiere de los filtros de 256-d? ¿Cuántos pesos o FLOP se usan en cada capa?
Cualquier discusión es muy apreciada!
fuente
Respuestas:
La arquitectura de cuello de botella se usa en redes muy profundas debido a consideraciones computacionales.
Para responder tu pregunta:
Los mapas de características de 56x56 no están representados en la imagen de arriba. Este bloque está tomado de una ResNet con un tamaño de entrada 224x224. 56x56 es la versión con muestreo reducido de la entrada en alguna capa intermedia.
64-d se refiere a la cantidad de mapas de características (filtros). La arquitectura de cuello de botella tiene 256 d, simplemente porque está destinada a una red mucho más profunda, que posiblemente tome imágenes de mayor resolución como entrada y, por lo tanto, requiera más mapas de características.
Consulte esta figura para conocer los parámetros de cada capa de cuello de botella en ResNet 50.
fuente
Realmente creo que el segundo punto en la respuesta de Newstein es engañoso.
El
64-d
o256-d
debe referirse al número de canales del mapa de características de entrada , no al número de mapas de características de entrada.Considere el bloque "cuello de botella" (a la derecha de la figura) en la pregunta del OP como ejemplo:
256-d
significa que tenemos un único mapa de entidades de entrada con dimensiónn x n x 256
. El1x1, 64
en la figura significa64
filtros , cada uno es1x1
y tiene256
canales (1x1x256
).1x1x256
) con un mapa de características de entrada (n x n x 256
) nos dan x n
salida.64
filtros, por lo tanto, al apilar las salidas, la dimensión del mapa de características de salida esn x n x 64
.Editado:
fuente