Reconocimiento de patrones para datos temporales

9

Estoy tratando de detectar y clasificar los sonidos que no son del habla. Actualmente, estoy usando una serie de espectros de poder superpuestos en movimiento de los sonidos de entrenamiento como las características que estoy buscando.

Cuando hago análisis, solo estoy calculando la misma cantidad de espectros superpuestos para que la cantidad de características sea la misma. En este momento el rendimiento no es muy bueno, solo puede detectar silencio vs no silencio.

¿Qué técnicas hay para este tipo de detección de señal? Una de mis preocupaciones es que los sonidos de diferentes longitudes en el dominio del tiempo darían como resultado diferentes longitudes de vectores de características, por lo que no puedo usar el mismo clasificador, estoy atascado en esto.

cufmo
fuente

Respuestas:

3

¿Está tratando de detectar el habla frente al no habla, o hay clases de sonidos no hablados de los que está tratando de discriminar? No estoy claro de tu pregunta.

Creo que un primer enfoque decente sería bloquear su señal en cuadros y calcular los coeficientes cepstrales de frecuencia de mel (MFCC), así como los MFCC delta (diferencias entre los MFCC de cuadros adyacentes) y los MFCC delta-delta (diferencias entre los MFCC) en cuadros que están separados por dos cuadros). Esta no es la única forma de hacerlo, pero sin un conocimiento más específico del dominio del problema, este es probablemente un buen lugar para comenzar.

Solo buscar en Google debería darle una buena referencia sobre cómo calcular los MFCC si aún no está familiarizado con ellos. Básicamente, usted toma el DFT, toma las magnitudes, calcula las energías dentro de las ventanas triangulares correspondientes a la audición humana, toma el DCT de estos coeficientes, esencialmente como un paso de compresión, y luego descarta los coeficientes de alto orden, generalmente solo toma alrededor de los primeros doce coeficientes . Tengo una explicación del significado del paso DCT en esta publicación: ¿Cómo interpreto el paso DCT en el proceso de extracción de MFCC?

Entonces podría, por ejemplo, usar estos coeficientes como características para un SVM.

schnarf
fuente
2

Creo que generalmente estás viendo un problema de detección del habla , que ha existido desde siempre, y ahora hay una miríada de métodos para hacer esto. Parece que este documento , por ejemplo, también utiliza técnicas espectrales, por lo que es posible que desee comenzar allí. Una buena y antigua búsqueda en Google arrojará muchos resultados con enlaces a artículos y artículos.

En general, hay dos enfoques distintos para la detección del habla. Uno permite la suposición de una buena relación de voz a ruido (la voz es más alta que el ruido ambiental, la música, otro contenido irrelevante), y el otro no hace tales suposiciones e intenta identificar la presencia del habla en señales muy ruidosas (habla enterrada en ruido). Dependiendo de cuál estés tratando de hacer, terminarás mirando documentos muy diferentes. Quizás si aclara un poco su pregunta y elabora los tipos de señales de voz con las que está trabajando, este sitio podría ser de más ayuda.

Phonon
fuente