¿Alguien puede explicar sobre la normalización de la media cepstral, cómo la propiedad de equivalencia de convolución afecta esto? ¿Es necesario hacer CMN en el reconocimiento de altavoces basado en MFCC? ¿Por qué la propiedad de convolución es la necesidad fundamental de MFCC?
Soy muy nuevo en este procesamiento de señales. Por favor ayuda
Respuestas:
Solo para aclarar las cosas: esta propiedad no es fundamental sino importante . Es la diferencia fundamental cuando se trata de usar DCT en lugar de DFT para el cálculo del espectro.
¿Por qué hacemos normalización cepstral media?
En el reconocimiento de los altavoces, queremos eliminar cualquier efecto de canal (respuesta de impulso del tracto vocal, ruta de audio, sala, etc.). Siempre que la señal de entrada sea y la respuesta al impulso del canal esté dada por , la señal grabada es una convolución lineal de ambos:h [ n ]x [ n ] h [ n ]
Al tomar la Transformada de Fourier obtenemos:
debido a la propiedad de equivalencia de convolución-multiplicación de FT, es por eso que es una propiedad tan importante de FFT en este paso .
El siguiente paso en el cálculo del cepstrum es tomar el logaritmo del espectro:
porque: . Obviamente, es la quefrency . Como se puede notar, al tomar el cepstrum de convolución en el dominio del tiempo, terminamos con la adición en el dominio cepstral (quefrency).Iniciar sesión( a b ) = loga + logsi q
¿Qué es la normalización cepstral media?
Ahora sabemos que en el dominio cepstral cualquier distorsión convolucional está representada por la suma. Supongamos que todos ellos son estacionarios (lo cual es una suposición sólida ya que el tracto vocal y la respuesta del canal no cambian) y la parte estacionaria del habla es insignificante. Podemos observar que para cada marco i-ésimo verdadero es:
Al tomar el promedio sobre todos los cuadros obtenemos
Definiendo la diferencia:
Terminamos con nuestra señal con distorsiones de canal eliminadas. Poniendo todas las ecuaciones anteriores en inglés simple:
¿Es necesaria la normalización cepstral media?
No es obligatorio, especialmente cuando intentas reconocer a un orador en un solo entorno. De hecho, incluso puede deteriorar sus resultados, ya que es propenso a errores debido al ruido aditivo:
En condiciones pobres de SNR, el término marcado puede superar la estimación.
Aunque cuando se realiza CMS, generalmente puede ganar un porcentaje extra. Si agrega a ese rendimiento una ganancia de derivados de coeficientes, entonces obtiene un impulso real de su tasa de reconocimiento. La decisión final depende de usted, especialmente de que hay muchos otros métodos utilizados para mejorar los sistemas de reconocimiento de voz.
fuente