¿En qué se diferencia una capa convolucional de una red convolucional ordinaria?

Actualmente estoy trabajando en recrear los resultados de este documento . En el documento describen un método para usar CNN para la extracción de características, y tienen un modelo acústico que es Dnn-hmm y pre-entrenado usando RBM.

La sección III, subsección A, establece diferentes formas en que los datos de entrada pueden representarse. Decidí apilar verticalmente los gráficos de espectro de los deltas estático, delta y delta.

Entonces como tal:

El documento luego describe cómo debería ser la red. Afirman que usan una red convolucional, pero ¿nada sobre la estructura de la red? Además, ¿se hace referencia siempre a la red como una capa convolucional? que estoy seguro de que veo alguna diferencia en comparación con una red neuronal convolucional de red ordinaria (cnn).

El documento establece esto con respecto a la diferencia:

(de la sección III, subsección B)

Sin embargo, una capa de convolución difiere de una capa oculta estándar totalmente conectada en dos aspectos importantes. Primero, cada unidad convolucional recibe información solo de un área local de la entrada. Esto significa que cada unidad representa algunas características de una región local de la entrada. En segundo lugar, las unidades de la capa de convolución pueden organizarse en una serie de mapas de características, donde todas las unidades en el mismo mapa de características comparten los mismos pesos pero reciben información de diferentes ubicaciones de la capa inferior

Otra cosa que me preguntaba es si el documento realmente indica cuántos parámetros de salida se necesitan para alimentar el modelo acústico dnn-hmm. Parece que no puedo decodificar la cantidad de filtros, tamaños de filtros ... en detalles generales de la red?

neural-network convnet feature-extraction audio-recognition Carlton Banks
fuente

También estoy interesado en esto. Supongo que puedo comenzar una recompensa para acelerar el proceso.

Lamda

Respuestas:

Parece que una capa convolucional es exactamente lo mismo que una capa convolucional ordinaria. Según su artículo, argumentan que el término "capa CNN" generalmente se refiere a una capa convolucional seguida de una capa de agrupación. En un intento por reducir la confusión, llaman a la parte convolucional una "capa de convolución" y a la parte de agrupación una "capa de agrupación":

En la terminología de CNN, un par de capas de convolución y agrupación en la Fig. 2 en sucesión generalmente se conoce como una "capa" de CNN. Por lo tanto, una CNN profunda consiste en dos o más de estos pares en sucesión. Para evitar confusiones, nos referiremos a las capas de convolución y agrupación como capas de convolución y agrupación, respectivamente.

Irónicamente, esto ha aumentado la confusión, lo que lleva a esta publicación. En ese momento, supongo que no era común tener varias capas convolucionales seguidas antes de una capa de agrupación, pero esto lo vemos a menudo en las arquitecturas modernas.

Para responder a su otra pregunta sobre la estructura de la red; Indican la estructura de la red que utilizan en la sección Experimentos (Sección VB). Para esperemos reducir la confusión, he sustituido la palabra "capas" con "capa":

En estos experimentos utilizamos una convolución [capa], una agrupación [capa] y dos capas ocultas completamente conectadas en la parte superior. Las capas completamente conectadas tenían 1000 unidades en cada una. Los parámetros de convolución y agrupación fueron: tamaño de agrupación de 6, tamaño de cambio de 2, tamaño de filtro de 8, 150 mapas de características para FWS y 80 mapas de características por banda de frecuencia para LWS.

Timleathart
fuente