Extracción de características para clasificación de sonido

15

Estoy tratando de extraer características de un archivo de sonido y clasificar el sonido como perteneciente a una categoría particular (por ejemplo: ladrido de perro, motor del vehículo, etc.). Me gustaría tener algo de claridad sobre las siguientes cosas:

1) ¿Es factible esto? Existen programas que pueden reconocer el habla y diferenciar entre diferentes tipos de ladridos de perros. Pero, ¿es posible tener un programa que pueda recibir una muestra de sonido y solo decir qué tipo de sonido es? (Suponga que hay una base de datos que contiene muchas muestras de sonido a las que hacer referencia). Las muestras de sonido de entrada pueden ser un poco ruidosas (entrada de micrófono).

2) Supongo que el primer paso es la extracción de funciones de audio. Este artículo sugiere extraer los MFCC y alimentarlos a un algoritmo de aprendizaje automático. ¿Es suficiente el MFCC? ¿Hay otras características que generalmente se usan para la clasificación de sonido?

Gracias por tu tiempo.

Kevin Martin Jose
fuente

Respuestas:

15
  1. De lejos, es factible, ¿en qué medida? Ya verás. Esta tarea de clasificación del sonido ambiental no está muy bien estudiada. También la elección del paradigma de aprendizaje automático es crucial: ¿enfoque estadístico o quizás clasificador binario? Puede comenzar con GMM, ANN y SVM: opto por GMM y ANN.
  2. Sí, la mayoría de las personas están usando MFCC porque están bien correlacionadas con lo que las personas realmente están escuchando y, desde entonces, a nadie se le ocurrió nada mejor. También es posible que desee agregar funciones adicionales, como los descriptores MPEG-7. Se debe realizar una optimización adecuada de las funciones porque a veces no se necesitan tantas funciones, especialmente cuando no son separables. Para obtener más información, consulte mis respuestas anteriores:

Extracción de características del espectro

Extracción de MFCC

Detección de sonidos.

jojek
fuente
Ampliaré mi respuesta en la noche.
jojek
Todavía
estoy
Por la noche ...
jojek
4

El audio no verbal (por no hablar del medio ambiente) parece ser el hermano menor de los tipos de medios de aprendizaje automático de transmisión principal como imágenes, habla y texto.

Para responder a su pregunta, ¿es posible entrenar una red para identificar un sonido dado? ¡Sí lo es! Pero es difícil por las mismas razones por las que el aprendizaje automático es difícil.

Sin embargo, lo que realmente detiene a Audio, y por qué lo llamo el hermano pequeño de las imágenes y el habla, se debe a la falta de audio de un conjunto de datos etiquetado a gran escala. Para Speech hay TIMIT, para Images hay varios ImagenNet, CIFAR, Caltech, para Text and Natural Language Processing hay grandes volúmenes de literatura, etc.

Que yo sepa, los dos conjuntos de datos de audio con etiqueta humana * no verbal más grandes son los conjuntos de datos UrbanSounds y ESC-100, que son prohibitivamente pequeños para los enfoques de aprendizaje verdaderamente profundo. Hay algunos resultados mixtos publicados en estos conjuntos de datos utilizando ConvNet de 2 capas.

Las características de MFCC son una representación de características de línea de base bien establecida en reconocimiento de voz y análisis de audio en general. ¡Pero hay toneladas de otras representaciones de funciones de audio! Este papel ofrece una buena taxonomía de tipos de funciones de audio.

El trabajo más emocionante en la clasificación de sonido que he visto recientemente lo están haciendo algunas personas en DeepMind, llamado WaveNet .

beeCwright
fuente
3

Aquí hay una solución para la clasificación de sonido para 10 clases: ladridos de perros, bocinas de automóviles, niños jugando, etc. Se basa en una biblioteca de tensorflow que utiliza redes neuronales. Las características se extraen mediante la conversión de clips de sonido a espectrograma

abggcv
fuente
3
simplemente vincular no es lo suficientemente bueno como respuesta.
Gilles
Sí, amplíe lo que dice el enlace.
Peter K.
2
Pero gracias por el enlace, sin embargo.
Kevin Martin Jose
En realidad, también estoy tratando de entender más sobre las técnicas utilizadas en el tutorial proporcionado en el enlace. Mi conocimiento en señales de sonido es muy limitado ya que soy un tipo de visión por computadora y procesamiento de imágenes. Intentaré elaborar más sobre la respuesta cuando tenga una mejor comprensión.
abggcv
1

Sí, es extremadamente factible. Aunque los NN son excelentes en este tipo de entrenamiento de clasificación, puede que ni siquiera sean necesarios: con un conjunto de características bien elegido, solo los algoritmos de agrupación clásicos, como un modelo de mezcla gaussiana o el análisis de componentes principales, probablemente también funcionarían. . Las bibliotecas modernas pueden hacer esto correctamente aproximadamente el 95% del tiempo o más.

johnwbyrd
fuente