En el reconocimiento de voz, el front end generalmente procesa la señal para permitir la extracción de características del flujo de audio. Una transformada discreta de Fourier (DFT) se aplica dos veces en este proceso. La primera vez es después de la ventana; después de esto se aplica Mel binning y...