¿Cómo difiere la reducción de ruido para el reconocimiento de voz de la reducción de ruido que se supone que hace que el habla sea más "inteligible" para los humanos?

Esta es una pregunta que me ha interesado desde hace algún tiempo, principalmente porque estoy trabajando en la reducción de ruido para un sistema de reconocimiento de voz existente.

La mayoría de los documentos sobre técnicas de reducción de ruido parecen centrarse en cómo hacer que el habla sea más inteligible para los humanos, o cómo mejorar términos vagos como "calidad del habla".

Estoy seguro de que, utilizando criterios como estos, puede identificar filtros que hacen que las señales de voz ruidosas sean más fáciles de escuchar para los humanos. Sin embargo, no estoy seguro de que estos criterios se puedan adaptar simplemente al intentar evaluar las señales de voz que han sido ignoradas para mejorar la precisión del sistema de reconocimiento de voz.

Realmente no encuentro documentos que discutan esta diferencia. ¿La inteligibilidad del habla y la calidad del habla se correlacionan con la precisión de los sistemas de reconocimiento de voz? ¿Existen medidas objetivas que puedan evaluar cuán "buena" será una señal de voz sin ruido para un sistema de reconocimiento de voz, por ejemplo, si también se le da la voz limpia original? ¿O es la única forma de averiguar qué tan buena es su técnica de reducción de ruido, entrenar el sistema de reconocimiento de voz en los datos sin ruido y observar la precisión?

Sería feliz si alguien pudiera señalarme en la dirección correcta, o tal vez dar algunos documentos que discutan esto. ¡Gracias por adelantado!

noise speech-recognition speech-processing noise-cancellation marlonfl
fuente

Respuestas:

Realmente no encuentro documentos que discutan esta diferencia.

Hay libros completos sobre el tema:

Robusto reconocimiento automático de voz 1ª edición

¿La inteligibilidad del habla y la calidad del habla se correlacionan con la precisión de los sistemas de reconocimiento de voz?

Usualmente no, usualmente la reducción de ruido corrompe las características de manera impredecible y reduce la precisión del reconocimiento de voz.

¿Existen medidas objetivas que puedan evaluar cuán "buena" será una señal de voz sin ruido para un sistema de reconocimiento de voz, por ejemplo, si también se le da la voz limpia original? ¿O es la única forma de averiguar qué tan buena es su técnica de reducción de ruido, entrenar el sistema de reconocimiento de voz en los datos sin ruido y observar la precisión?

Segundo. Además, la reducción de ruido basada en características en realidad elimina información importante del espectro por completo, por lo que no puede reparar la precisión del sistema limpio. Por esa razón, el enfoque moderno es realizar un entrenamiento de varios estilos sobre datos ruidosos en lugar de utilizar el algoritmo de reducción de ruido de antemano. Termina en un reconocimiento más preciso.

Nikolay Shmyrev
fuente

Gracias por tus respuestas. Supongo que no estaba buscando los documentos correctos. Echaré un vistazo a ese libro.

marlonfl

Ok, si quiere documentos, puede verificar los resultados del desafío CHIME-4, principalmente el estado del arte en ASR robusto.

Nikolay Shmyrev