Normalización cepstral media

15

¿Alguien puede explicar sobre la normalización de la media cepstral, cómo la propiedad de equivalencia de convolución afecta esto? ¿Es necesario hacer CMN en el reconocimiento de altavoces basado en MFCC? ¿Por qué la propiedad de convolución es la necesidad fundamental de MFCC?

Soy muy nuevo en este procesamiento de señales. Por favor ayuda

mun
fuente
¿Sin el uso del banco de filtros, la conversión de la frecuencia directamente a escala de milésimas funcionará en el proceso MFCC?
morado

Respuestas:

17

Solo para aclarar las cosas: esta propiedad no es fundamental sino importante . Es la diferencia fundamental cuando se trata de usar DCT en lugar de DFT para el cálculo del espectro.

¿Por qué hacemos normalización cepstral media?

En el reconocimiento de los altavoces, queremos eliminar cualquier efecto de canal (respuesta de impulso del tracto vocal, ruta de audio, sala, etc.). Siempre que la señal de entrada sea y la respuesta al impulso del canal esté dada por , la señal grabada es una convolución lineal de ambos:h [ n ]X[norte]h[norte]

y[norte]=X[norte]h[norte]

Al tomar la Transformada de Fourier obtenemos:

Y[F]=X[F]H[F]

debido a la propiedad de equivalencia de convolución-multiplicación de FT, es por eso que es una propiedad tan importante de FFT en este paso .

El siguiente paso en el cálculo del cepstrum es tomar el logaritmo del espectro:

Y[q]=Iniciar sesiónY[F]=Iniciar sesión(X[F]H[F])=X[q]+H[q]

porque: . Obviamente, es la quefrency . Como se puede notar, al tomar el cepstrum de convolución en el dominio del tiempo, terminamos con la adición en el dominio cepstral (quefrency).Iniciar sesión(unsi)=Iniciar sesiónun+Iniciar sesiónsiq

¿Qué es la normalización cepstral media?

Ahora sabemos que en el dominio cepstral cualquier distorsión convolucional está representada por la suma. Supongamos que todos ellos son estacionarios (lo cual es una suposición sólida ya que el tracto vocal y la respuesta del canal no cambian) y la parte estacionaria del habla es insignificante. Podemos observar que para cada marco i-ésimo verdadero es:

Yyo[q]=H[q]+Xyo[q]

Al tomar el promedio sobre todos los cuadros obtenemos

1norteyoYyo[q]=H[q]+1norteyoXyo[q]

Definiendo la diferencia:

Ryo[q]=Yyo[q]-1nortejYj[q]=H[q]+Xyo[q]-(H[q]+1nortejXj[q])=Xyo[q]-1nortejXj[q]

Terminamos con nuestra señal con distorsiones de canal eliminadas. Poniendo todas las ecuaciones anteriores en inglés simple:

  • Calcular cepstrum
  • Resta el promedio de cada coeficiente
  • Opcionalmente, divida por varianza para realizar la normalización de la media cepstral en lugar de la resta.

¿Es necesaria la normalización cepstral media?

No es obligatorio, especialmente cuando intentas reconocer a un orador en un solo entorno. De hecho, incluso puede deteriorar sus resultados, ya que es propenso a errores debido al ruido aditivo:

y[norte]=X[norte]h[norte]+w[norte]

Y[F]=X[F]H[F]+W[F]

Iniciar sesiónY[F]=Iniciar sesión[X[F](H[F]+W[F]X[F])]=Iniciar sesiónX[F]+Iniciar sesión(H[F]+W[F]X[F])

En condiciones pobres de SNR, el término marcado puede superar la estimación.

Aunque cuando se realiza CMS, generalmente puede ganar un porcentaje extra. Si agrega a ese rendimiento una ganancia de derivados de coeficientes, entonces obtiene un impulso real de su tasa de reconocimiento. La decisión final depende de usted, especialmente de que hay muchos otros métodos utilizados para mejorar los sistemas de reconocimiento de voz.

jojek
fuente
@mun: Me alegra que haya ayudado. ¿Por qué no marcar las respuestas a sus preguntas como aceptadas para poder eliminar las restricciones de nuevos usuarios?
jojek
@mun: ¡Felicidades! Ahora publica más enlaces, vota preguntas y respuestas + marca publicaciones.
jojek
gracias @jojek ... Soy muy nuevo en todo esto, pero me alegro de haber resuelto mi problema.
mun
@mun: Entonces definitivamente te sugiero que hagas un recorrido
jojek
En la última respuesta, no puedo entender lo que realmente significa "agregar a esa ganancia de rendimiento de derivados de coeficientes". ¿Puedes dar alguna explicación simple? Muchas gracias
Shuai Wang