¿Por qué un codificador de MP3 utiliza una transformación rápida de Fourier antes de aplicar el modelo psicoacústico?

8

Karlheinz Brandenburg representa un codificador de MP3 como este:

Diagrama de bloques de un codificador de MP3

Fuente: MP3 y AAC explicados

Marqué el FFT ya que no estoy seguro de por qué es realmente necesario realizar uno. ¿Por qué no puede aplicarse el modelo psicoacústico a las llamadas líneas después de la transformada discreta de coseno modificada (TCMD) sin realizar una FFT?

Tengo algo de literatura aquí, que dice que la resolución de frecuencia no es lo suficientemente precisa. ¿Significa esto que dividir la señal original en 576 líneas (como lo hacen el banco de filtros y el MDCT) no es lo suficientemente precisa para que el modelo psicoacústico funcione correctamente? ¿Es la FFT más precisa?

Fonólogo
fuente
El banco de filtros y el canal MDCT es la fuente de error que el modelo psicoacústico intenta minimizar, es decir, el canal superior tiene pérdidas. De los números que parecen correctos, 1024 componentes de frecuencia en la señal verdadera en comparación con 576 en la tubería de compresión.
KWillets

Respuestas:

8

Sugeriría una explicación más detallada del códec mp3 .

FFT se aplica en la señal del dominio del tiempo, por lo que, de hecho, no utiliza el resultado de la MDCT. La entrada a los modelos psicoacústicos está en el dominio de la frecuencia, de ahí la FFT.

Hay al menos varias razones para hacerlo. La MDCT con bancos de filtros funciona en trozos superpuestos muy cortos, maximizando la compresión: el FFT utiliza muestras más largas y tiene una mejor resolución espectral. (Es difícil de comparar ya que la TCMD funciona como una transformación a corto plazo; si esto es de gran importancia para usted, tendré que hacer esa comparación).

Puede pensar en el MDCT del banco de filtros de la misma manera que la cuantización JPEG (es una muy buena analogía, ya que ambos usan DCT) y FFT para detectar artefactos DCT de la compresión. Luego, el modelo psicoacústico suaviza los errores para que caigan por debajo del umbral "curable", pero para hacer eso, las muestras de dominio de tiempo (aquí PCM - Modulación del código de pulso no es suficiente, porque los cambios de frecuencia repentinos se escuchan como grietas) - entonces utiliza el dominio de frecuencia para detectar tales discontinuidades y luego suavizarlo en el dominio del tiempo.

Dos cosas no se explican en los artículos, pero son cruciales. Cuando las diferencias de PCM son altas, el altavoz tiene más distancia para viajar, por lo que hay un retraso de tiempo y, dependiendo de las capacidades del altavoz, puede causar vibraciones adicionales, que son ruidos bastante distintos del altavoz. La segunda parte es entre líneas, la versión cuantificada de la señal se transforma de nuevo para compararla con el sonido original y verificar cuánto se desvía.

Basado en el tipo de enmascaramiento de ventanas (basado en la comparación de FFT y MDCT invertido) se elige para compensar mejor las desviaciones audibles del original.

Los humanos perciben los cambios de frecuencia mejor que los cambios de amplitud, por lo que el filtro funciona en ambos dominios a la vez, y la señal cuantificada se invierte y el suavizado se realiza en el dominio del tiempo.

Sí, la resolución de MDCT con bancos de filtros no es suficiente, pero esta es la parte en la que ocurre una parte justa de la compresión, y luego se enmascara. Pero el modelo psicoacústico tiene una resolución espectral como se indica en el documento.

Sí, FFT es más preciso porque obtiene muestras más largas, por lo que tiene una mejor resolución entre contenedores.

Nota al pie de página
La (M) DCT se implementa comúnmente realizando FFT, por lo que esto no tiene nada que ver con la transformación utilizada. La MDCT puede verse como una Transformada de Fourier a corto plazo modificada por bits con un filtro especialmente elegido (los bancos de filtros se asemejan a la escala Mel para el reconocimiento de voz).

FFT se usa por más tiempo, proporciona algoritmos más fáciles para el cambio de tono y es más fácil de aplicar al sonido. (M) DCT minimiza el número de componentes, lo que significa que podemos cortar más datos del resultado que de FFT.

Pero en el caso del sonido, esos componentes no son estables, cortar siempre, por ejemplo, dos bins, dará una mayor distorsión entre cuadros consecutivos que hacer una operación equivalente en resultados FFT. Entonces, la conexión entre FFT y lo que escuchamos es mayor que (M) DCT y lo que escuchamos, pero la compresión disponible es al revés.

Mal
fuente