La transformada de Fourier se usa comúnmente para el análisis de frecuencia de sonidos. Sin embargo, tiene algunas desventajas a la hora de analizar la percepción humana del sonido. Por ejemplo, sus intervalos de frecuencia son lineales, mientras que el oído humano responde a la frecuencia logarítmicamente, no linealmente .
Las transformaciones Wavelet pueden modificar la resolución para diferentes rangos de frecuencia , a diferencia de la transformada de Fourier. Las propiedades de la transformada wavelet permiten grandes soportes temporales para frecuencias más bajas mientras mantienen anchos temporales cortos para frecuencias más altas.
La wavelet de Morlet está estrechamente relacionada con la percepción humana de la audición. Se puede aplicar a la transcripción de música y produce resultados muy precisos que no son posibles utilizando las técnicas de transformación de Fourier. Es capaz de capturar ráfagas cortas de notas musicales repetidas y alternas con un tiempo de inicio y finalización claro para cada nota.
La transformación Q constante (estrechamente relacionada con la transformación wavelet de Morlet) también se adapta bien a los datos musicales . Como la salida de la transformación es efectivamente amplitud / fase contra la frecuencia logarítmica, se requieren menos intervalos espectrales para cubrir un rango dado de manera efectiva, y esto resulta útil cuando las frecuencias abarcan varias octavas.
La transformación exhibe una reducción en la resolución de frecuencia con intervalos de frecuencia más altos, lo cual es deseable para aplicaciones auditivas. Refleja el sistema auditivo humano, por lo que a frecuencias más bajas la resolución espectral es mejor, mientras que la resolución temporal mejora a frecuencias más altas.
Mi pregunta es esta: ¿hay otras transformaciones que imiten de cerca el sistema auditivo humano? ¿Alguien ha intentado diseñar una transformación que coincida anatómica / neurológicamente con el sistema auditivo humano lo más cerca posible?
Por ejemplo, se sabe que los oídos humanos tienen una respuesta logarítmica a la intensidad del sonido . También se sabe que los contornos de igual intensidad varían no solo con la intensidad, sino también con el espaciado en la frecuencia de los componentes espectrales . Los sonidos que contienen componentes espectrales en muchas bandas críticas se perciben como más fuertes incluso si la presión acústica total permanece constante.
Finalmente, el oído humano tiene una resolución temporal limitada dependiente de la frecuencia . Quizás esto también podría tenerse en cuenta.
fuente
Respuestas:
Al diseñar tales transformaciones, uno debe tener en cuenta intereses en competencia:
Dos diseños recientes me han llamado la atención recientemente: Transformación wavelet de Gammatone motivada auditivamente , procesamiento de señales, 2014
La transformación ERBlet: una representación de frecuencia de tiempo basada en la audición con reconstrucción perfecta , ICASSP 2013
Y mencionaré también:
Una transformación basada en la audición para el procesamiento de señales de audio , WASPAA 2009
fuente