Por lo que entiendo, el DCT tiene la mitad del tamaño del depósito que un DFT del mismo tamaño N. El DFT también incluye información de fase, pero a menudo esto no es necesario cuando solo se desea el espectro de magnitud.
- ¿Se podría usar el DCT para proporcionar un espectro de magnitud con el doble de densidad (la mitad del espacio del depósito) del DFT o se perdería información desfasada?
- ¿Qué tal con una superposición del 50%?
Respuestas:
Sí, DCT se puede usar para proporcionar un espectro de magnitud con el doble de densidad. No entiendo la superposición, pero supongo que dado que DCT cubre menos, pensaste que habría una superposición. Para proporcionar una respuesta elegible a la pregunta, permítame hacer una revisión rápida del uso de DCT principalmente en el procesamiento de imágenes.
Primero, necesitamos hacer algunas suposiciones. Para usar DCT, debe tener una señal real. Esto es por definición. Mientras dices, DCT tiene la mitad del tamaño de la papelera en comparación con DFT en tamaño N, estás asumiendo que la señal es de baja frecuencia. De lo contrario, no tanto.
Para el uso de DCT en compresión, dado que DFT de la imagen será simétrica, produce información redundante (un espejo lateral será suficiente para reproducir la señal). Por lo tanto, el núcleo de DCT se usa para producir información más densa en comparación con DFT. Esto también es cierto para las señales de audio de baja frecuencia, se puede usar de la misma manera. Si bien lo hace más denso, los coeficientes se hacen más grandes, ya que el núcleo de DCT cubre ambos lados (partes reales e imaginarias) de la señal.
Mi especialidad es el procesamiento de imágenes, así que traté de mapear los conceptos y explicaciones de DCT y DFT en el procesamiento de imágenes. Sin embargo, una diferencia entre imagen y audio podría ser el tamaño. En el procesamiento de imágenes, conoce los tamaños (filas y columnas para FFT y otros fines de procesamiento). Supongo que necesita dividir el vector de datos de audio de alguna manera para poder seguir procesándolo. Sin conocer los datos, esto podría ser problemático (no estoy seguro).
Aquí hay una imagen tomada de la web, pero no la escribí donde la tomé, podría ser wikipedia .;
Como puede ver, la imagen transformada se representa en DCT por espectro de magnitud sin problema. De una manera más compacta y más densa, y observe la magnitud de los coeficientes. Es más grande que dos veces de DFT. DFT es simétrico, podría dividirlo en dos. Una parte es redundante. Y una cosa más, DCT puede almacenar la información no es solo la mitad de DFT sino casi la cuarta parte de DFT. Ese es generalmente el caso de DCT superando a DFT en imágenes.
fuente
A partir de esta pregunta, entiendo que está pensando en realizar un procesamiento de bloque localizado, en forma de deslizamiento de Fourier o espectrograma.
Si habla sobre el espectro de magnitud, por supuesto, parte de la fase (ya sea el argumento de un coeficiente de Fourier complejo o el signo de un coeficiente DCT) se perderá de todos modos .
Entonces, por supuesto, puede conectar muchos núcleos en reemplazo de la transformada de Fourier en ventana dentro de la formulación de Fourier a corto plazo solo para análisis. Las diversas razas de DCT, sus versiones superpuestas (LOT, MDCT), con buenas propiedades ortogonales y de ventana, incluso pueden invertirse (síntesis).
En audio, DCT (no complejo) o versiones superpuestas se usan a menudo para análisis, inicio y detección de tono (separación de fuente ciega), por ejemplo, la caja de herramientas STFT, MDCT e inversas Matlab de A. Liutkus. La caja de herramientas de análisis de frecuencia a largo plazo (LTFAT) también posee:
No conozco muy bien el audio. Sin embargo, una superposición del 50% o 75% es muy común, y muy pocas personas usan otras configuraciones. Sin embargo, es muy común usar al menos dos tamaños de ventana , uno largo de parte estacionaria, uno corto para transitorios, para ayudar a superar la limitación de frecuencia de tiempo de "una ventana".
fuente