¿Qué capa consume más tiempo en el entrenamiento de CNN? Capas de convolución vs capas FC

11

En la red neuronal convolucional, ¿qué capa consume el máximo tiempo en entrenamiento? ¿Capas de convolución o capas completamente conectadas? Podemos tomar la arquitectura AlexNet para entender esto. Quiero ver la ruptura del tiempo del proceso de capacitación. Quiero una comparación de tiempo relativa para que podamos tomar cualquier configuración de GPU constante.

Ruchit Dalwadi
fuente

Respuestas:

11

NOTA: Hice estos cálculos de manera especulativa, por lo que algunos errores podrían haber aparecido. Informe de dichos errores para que pueda corregirlos.

En general, en cualquier CNN, el tiempo máximo de entrenamiento va en la retropropagación de errores en la capa totalmente conectada (depende del tamaño de la imagen). También la memoria máxima también está ocupada por ellos. Aquí hay una diapositiva de Stanford sobre los parámetros de la red VGG:

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Claramente, puede ver que las capas completamente conectadas contribuyen a aproximadamente el 90% de los parámetros. Entonces la memoria máxima está ocupada por ellos.

(333)(333)224224224224(333)6422422464224224(333)87106 6

56562565656(33256)56562565656(33256)1850106 6

stryoremi=1

Chunnortenortemilsotutpagstut(pagsyoXmilOtutpagstuthmiyosolhtpagsyoXmilOtutpagstutwyoreth)(FyoltmirhmiyosolhtFyoltmirwyorethChunnortenortemilsyonortepagstut)

Gracias a las GPU rápidas, podemos manejar fácilmente estos enormes cálculos. Pero en las capas FC, se debe cargar toda la matriz, lo que causa problemas de memoria, que generalmente no es el caso de las capas convolucionales, por lo que la capacitación de las capas convolucionales aún es fácil. Además, todos estos deben cargarse en la memoria de la GPU y no en la RAM de la CPU.

También aquí está la tabla de parámetros de AlexNet:

ingrese la descripción de la imagen aquí

Y aquí hay una comparación de rendimiento de varias arquitecturas de CNN:

ingrese la descripción de la imagen aquí

Le sugiero que consulte la CS231n Lecture 9 de la Universidad de Stanford para comprender mejor los rincones y grietas de las arquitecturas de CNN.

DuttaA
fuente