¿Cómo se aplican los núcleos a los mapas de características para producir otros mapas de características?

44

Estoy tratando de entender la parte de convolución de las redes neuronales convolucionales. Mirando la siguiente figura:

ingrese la descripción de la imagen aquí

No tengo problemas para comprender la primera capa de convolución donde tenemos 4 núcleos diferentes (de tamaño ), que convolucionamos con la imagen de entrada para obtener 4 mapas de características.k×k

Lo que no entiendo es la siguiente capa de convolución, donde pasamos de 4 mapas de características a 6 mapas de características. Supongo que tenemos 6 núcleos en esta capa (por consiguiente, 6 mapas de características de salida), pero ¿cómo funcionan estos núcleos en los 4 mapas de características que se muestran en C1? ¿Los núcleos son tridimensionales, o son bidimensionales y se replican en los 4 mapas de características de entrada?

utdiscant
fuente
1
Estoy atrapado en el mismo lugar. Desafortunadamente, el artículo de Yann Lecun no explica eso también: he estado revisando varios archivos PDF y videos de los últimos días y todos parecen omitir esa parte. El artículo de Yann Lecun en realidad habla de 6 a 16 mapas de características con una tabla de mapeo en la capa 2. El primer mapa de características de salida recibe la entrada de 0,1,2 mapas de características de entrada. Pero ese mapa de características de salida es de 10 por 10, los 3 mapas de características de entrada son de 14 por 14. Entonces, ¿cómo funcionó? ¿Entendiste lo que está pasando? ¿Es un núcleo 3-D? ¿o está promediando las salidas de la ubicación * kernel (convolución)?
Run2

Respuestas:

18

Los núcleos son tridimensionales, donde se puede elegir el ancho y la altura, mientras que la profundidad es igual al número de mapas en la capa de entrada, en general.

¡Ciertamente no son bidimensionales y se replican en los mapas de características de entrada en la misma ubicación 2D! ¡Eso significaría que un kernel no podría distinguir entre sus características de entrada en una ubicación dada, ya que usaría uno y el mismo peso en los mapas de características de entrada!

Angelorf
fuente
5

No existe necesariamente una correspondencia uno a uno entre las capas y los núcleos. Eso depende de la arquitectura particular. La figura que publicó sugiere que en las capas S2 tiene 6 mapas de características, cada uno combinando todos los mapas de características de las capas anteriores, es decir, diferentes combinaciones posibles de las características.

Sin más referencias no puedo decir mucho más. Ver por ejemplo este artículo

jpmuc
fuente
Estoy mirando LeNet-5 en particular, y estoy usando este deeplearning.net/tutorial/lenet.html como mi referencia. Parece de esa página, que los núcleos son tridimensionales, pero no está 100% claro para mí.
utdiscant
2
Entonces debe leer este documento ( yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf ). En la página 8 se describe cómo están conectadas las diferentes capas. Como dije, la capa de cada entidad en la capa combina varias entidades de la capa anterior en la misma ubicación.
jpmuc
2
El enlace está muerto.
jul
2

La Tabla 1 y la Sección 2a del "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos" de Yann LeCun explica esto bien: http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf No todas las regiones de la convolución 5x5 son Se utiliza para generar la segunda capa convolucional.

Travis Desell
fuente
0

Este artículo puede ser útil: Comprender la convolución en el aprendizaje profundo por Tim Dettmers del 26 de marzo

Realmente no responde la pregunta porque explica solo la primera capa de convolución, pero contiene una buena explicación de la intuición básica sobre la convolución en las CNN. También describe una definición matemática más profunda de convolución. Creo que está relacionado con el tema de la pregunta.

Anatoly Vasilyev
fuente
1
Bienvenido al sitio. Estamos tratando de construir un repositorio permanente de información estadística de alta calidad en forma de preguntas y respuestas. Por lo tanto, desconfiamos de las respuestas de solo enlace, debido a linkrot. ¿Puede publicar una cita completa y un resumen de la información en el enlace, en caso de que falle?
gung - Restablece a Monica
@gung, gracias por el aviso, perdón por malinterpretar los conceptos. La situación es: este artículo realmente no responde la pregunta, pero cuando estaba buscando intuición básica sobre las CNN encontré esta pregunta y esperaba ayudar con este artículo a alguien que también busca intuición básica y obtuve esta pregunta. Ok, mejor eliminarlo, ¿sí? Gracias.
Anatoly Vasilyev
Creo que estaría bien decir: 'este artículo puede servir como fuente de reflexión, pero no responde completamente la pregunta', o algo así. Bien puede haber valor aquí. Simplemente proporcione una cita completa y un resumen de la información contenida, en caso de que el enlace se cierre.
gung - Restablece a Monica
Gracias por la información adicional. ¿Puede proporcionar una cita completa para el trabajo (autor, año, título, revista, etc.) y un resumen de su contenido?
gung - Restablece a Monica
@gung sí, por supuesto. Pero parece que este artículo está solo en este blog, por lo que no pude encontrar ninguna otra información útil al respecto. Gracias por aclarar mi punto de vista
Anatoly Vasilyev