Actualmente estoy trabajando en recrear los resultados de este documento . En el documento describen un método para usar CNN para la extracción de características, y tienen un modelo acústico que es Dnn-hmm y pre-entrenado usando RBM.
La sección III, subsección A, establece diferentes formas en que los datos de entrada pueden representarse. Decidí apilar verticalmente los gráficos de espectro de los deltas estático, delta y delta.
El documento luego describe cómo debería ser la red. Afirman que usan una red convolucional, pero ¿nada sobre la estructura de la red? Además, ¿se hace referencia siempre a la red como una capa convolucional? que estoy seguro de que veo alguna diferencia en comparación con una red neuronal convolucional de red ordinaria (cnn).
El documento establece esto con respecto a la diferencia:
(de la sección III, subsección B)
Sin embargo, una capa de convolución difiere de una capa oculta estándar totalmente conectada en dos aspectos importantes. Primero, cada unidad convolucional recibe información solo de un área local de la entrada. Esto significa que cada unidad representa algunas características de una región local de la entrada. En segundo lugar, las unidades de la capa de convolución pueden organizarse en una serie de mapas de características, donde todas las unidades en el mismo mapa de características comparten los mismos pesos pero reciben información de diferentes ubicaciones de la capa inferior
Otra cosa que me preguntaba es si el documento realmente indica cuántos parámetros de salida se necesitan para alimentar el modelo acústico dnn-hmm. Parece que no puedo decodificar la cantidad de filtros, tamaños de filtros ... en detalles generales de la red?
fuente
Respuestas:
Parece que una capa convolucional es exactamente lo mismo que una capa convolucional ordinaria. Según su artículo, argumentan que el término "capa CNN" generalmente se refiere a una capa convolucional seguida de una capa de agrupación. En un intento por reducir la confusión, llaman a la parte convolucional una "capa de convolución" y a la parte de agrupación una "capa de agrupación":
Irónicamente, esto ha aumentado la confusión, lo que lleva a esta publicación. En ese momento, supongo que no era común tener varias capas convolucionales seguidas antes de una capa de agrupación, pero esto lo vemos a menudo en las arquitecturas modernas.
Para responder a su otra pregunta sobre la estructura de la red; Indican la estructura de la red que utilizan en la sección Experimentos (Sección VB). Para esperemos reducir la confusión, he sustituido la palabra "capas" con "capa":
fuente