¿Cómo entender una red convolucional de creencias profundas para la clasificación de audio?

11

En " Redes convolucionales de creencias profundas para el aprendizaje escalable sin supervisión de representaciones jerárquicas " por Lee et. al. ( PDF ) Se proponen DBN convolucionales. También se evalúa el método para la clasificación de imágenes. Esto suena lógico, ya que hay características de imagen locales naturales, como pequeñas esquinas y bordes, etc.

En " Aprendizaje de características no supervisadas para la clasificación de audio utilizando redes convolucionales de creencias profundas " de Lee et. Alabama. Este método se aplica para audio en diferentes tipos de clasificaciones. Identificación del orador, identificación de género, clasificación telefónica y también alguna clasificación de género musical / artista.

¿Cómo se puede interpretar la parte convolucional de esta red para el audio, como se puede explicar para las imágenes como bordes?

Peter Smit
fuente
¿Quién tiene el código para el periódico?

Respuestas:

9

La aplicación de audio es una simplificación unidimensional del problema de clasificación de imágenes bidimensionales. Un fonema (por ejemplo) es el análogo de audio de una función de imagen, como un borde o un círculo. En cualquier caso, tales características tienen una localidad esencial: se caracterizan por valores dentro de un vecindario relativamente pequeño de una ubicación de imagen o momento de discurso. Las convoluciones son una forma controlada y regular de promedio ponderado de valores dentro de los vecindarios locales. De esto se origina la esperanza de que una forma convolucional de un DBN pueda tener éxito en identificar y discriminar características que son significativas.

whuber
fuente
1

En el caso de RBM convolucionales aplicados a datos de audio, los autores primero tomaron la Transformada de Fourier a corto plazo y luego definieron bandas de energía en el espectro. Luego han aplicado RBM convolucionales en ese audio transformado.

usuario1915348
fuente