Esta es una pregunta que me ha interesado desde hace algún tiempo, principalmente porque estoy trabajando en la reducción de ruido para un sistema de reconocimiento de voz existente.
La mayoría de los documentos sobre técnicas de reducción de ruido parecen centrarse en cómo hacer que el habla sea más inteligible para los humanos, o cómo mejorar términos vagos como "calidad del habla".
Estoy seguro de que, utilizando criterios como estos, puede identificar filtros que hacen que las señales de voz ruidosas sean más fáciles de escuchar para los humanos. Sin embargo, no estoy seguro de que estos criterios se puedan adaptar simplemente al intentar evaluar las señales de voz que han sido ignoradas para mejorar la precisión del sistema de reconocimiento de voz.
Realmente no encuentro documentos que discutan esta diferencia. ¿La inteligibilidad del habla y la calidad del habla se correlacionan con la precisión de los sistemas de reconocimiento de voz? ¿Existen medidas objetivas que puedan evaluar cuán "buena" será una señal de voz sin ruido para un sistema de reconocimiento de voz, por ejemplo, si también se le da la voz limpia original? ¿O es la única forma de averiguar qué tan buena es su técnica de reducción de ruido, entrenar el sistema de reconocimiento de voz en los datos sin ruido y observar la precisión?
Sería feliz si alguien pudiera señalarme en la dirección correcta, o tal vez dar algunos documentos que discutan esto. ¡Gracias por adelantado!