La resolución de tiempo frente a frecuencia es un problema bien conocido, y de hecho hay enfoques para superarlo. Para las señales de audio, algunas de las técnicas comúnmente utilizadas incluyen: métodos paramétricos; resolución adaptativa (analice con varias configuraciones de tiempo / frecuencia y junte los resultados juntos: Wen X. y M. Sandler, "Espectrograma compuesto usando múltiples transformadas de Fourier"); wavelets / descomposiciones en bases sobrecompletas; y el uso de información de fase para extraer la ubicación precisa de los picos de frecuencia (IFgram).
Sin embargo, parece que el gráfico que ha mostrado no utiliza algunas de estas técnicas; así que sospecho que esto no es lo que podrías estar buscando. Parece haber cierta "mancha" en el eje horizontal (por ejemplo, en t = 1.2s) y este es un signo seguro de que el análisis se ha realizado con una alta superposición entre los fragmentos.
De hecho, la duración del fragmento y el número de cuadros de análisis por segundo no tienen que estar vinculados entre sí si permite que los cuadros se superpongan. Entonces, si desea usar un marco de análisis de 40 ms de largo, su cuadrícula no tiene que ser:
marco 1: t = 0..t = 40ms; marco 2: t = 40ms..t = 80ms
Podría muy bien ser:
marco 1: t = 0..t = 40ms; marco 2: t = 10ms..t = 50ms
Esta superposición puede dar la ilusión de una resolución temporal más alta sin reducir demasiado el tamaño de la ventana FFT. Tenga en cuenta que esto solo puede ayudar a ubicar con precisión un evento en el eje de tiempo: no ayudará a resolver dos eventos cercanos en el tiempo ... Al igual que aumentar el tamaño de FFT podría ayudar a identificar la ubicación de un pico de frecuencia, pero no con el resolución de dos picos de frecuencia adyacentes.