¿Qué transformación imita más estrechamente el sistema auditivo humano?

12

La transformada de Fourier se usa comúnmente para el análisis de frecuencia de sonidos. Sin embargo, tiene algunas desventajas a la hora de analizar la percepción humana del sonido. Por ejemplo, sus intervalos de frecuencia son lineales, mientras que el oído humano responde a la frecuencia logarítmicamente, no linealmente .

Las transformaciones Wavelet pueden modificar la resolución para diferentes rangos de frecuencia , a diferencia de la transformada de Fourier. Las propiedades de la transformada wavelet permiten grandes soportes temporales para frecuencias más bajas mientras mantienen anchos temporales cortos para frecuencias más altas.

La wavelet de Morlet está estrechamente relacionada con la percepción humana de la audición. Se puede aplicar a la transcripción de música y produce resultados muy precisos que no son posibles utilizando las técnicas de transformación de Fourier. Es capaz de capturar ráfagas cortas de notas musicales repetidas y alternas con un tiempo de inicio y finalización claro para cada nota.

La transformación Q constante (estrechamente relacionada con la transformación wavelet de Morlet) también se adapta bien a los datos musicales . Como la salida de la transformación es efectivamente amplitud / fase contra la frecuencia logarítmica, se requieren menos intervalos espectrales para cubrir un rango dado de manera efectiva, y esto resulta útil cuando las frecuencias abarcan varias octavas.

La transformación exhibe una reducción en la resolución de frecuencia con intervalos de frecuencia más altos, lo cual es deseable para aplicaciones auditivas. Refleja el sistema auditivo humano, por lo que a frecuencias más bajas la resolución espectral es mejor, mientras que la resolución temporal mejora a frecuencias más altas.

Mi pregunta es esta: ¿hay otras transformaciones que imiten de cerca el sistema auditivo humano? ¿Alguien ha intentado diseñar una transformación que coincida anatómica / neurológicamente con el sistema auditivo humano lo más cerca posible?

Por ejemplo, se sabe que los oídos humanos tienen una respuesta logarítmica a la intensidad del sonido . También se sabe que los contornos de igual intensidad varían no solo con la intensidad, sino también con el espaciado en la frecuencia de los componentes espectrales . Los sonidos que contienen componentes espectrales en muchas bandas críticas se perciben como más fuertes incluso si la presión acústica total permanece constante.

Finalmente, el oído humano tiene una resolución temporal limitada dependiente de la frecuencia . Quizás esto también podría tenerse en cuenta.

usuario76284
fuente
¿Impone alguna restricción matemática en "transformar"?
Olli Niemitalo
2
Felicitaciones por todos los enlaces!
Gilles
Ninguna transformación individual puede imitar adecuadamente un sistema tan complejo como el sistema auditivo humano. Los modelos HAS existentes utilizan arquitecturas de procesamiento de señales complicadas y transformaciones múltiples que modelan otro aspecto de la audición. Puede ser que desee considerar el modelado pieza por pieza.
Fat32

Respuestas:

9

Al diseñar tales transformaciones, uno debe tener en cuenta intereses en competencia:

  • fidelidad al sistema auditivo humano (que varía con las personas), incluidos los aspectos no lineales o incluso caóticos (tinnitus)
  • facilidad de la formulación matemática para la parte de análisis
  • posibilidad de discretizarlo o permitir implementaciones rápidas
  • existencia de un inverso estable adecuado

Dos diseños recientes me han llamado la atención recientemente: Transformación wavelet de Gammatone motivada auditivamente , procesamiento de señales, 2014

La capacidad de la transformación de wavelet continua (CWT) para proporcionar una buena localización de tiempo y frecuencia la ha convertido en una herramienta popular en el análisis de señales de tiempo-frecuencia. Las wavelets exhiben una propiedad Q constante, que también poseen los filtros de membrana basilar en el sistema auditivo periférico. Los filtros de membrana basilar o los filtros auditivos a menudo están modelados por una función Gammatone, que proporciona una buena aproximación a las respuestas determinadas experimentalmente. El banco de filtros derivado de estos filtros se conoce como banco de filtros Gammatone. En general, el análisis wavelet se puede comparar con un análisis de banco de filtros y, por lo tanto, el vínculo interesante entre el análisis de wavelet estándar y el banco de filtros Gammatone. Sin embargo, la función Gammatone no califica exactamente como una wavelet porque su tiempo promedio no es cero. Mostramos cómo las wavelets de buena fe se pueden construir a partir de las funciones de Gammatone. Analizamos propiedades como la admisibilidad, el producto de ancho de banda de tiempo, los momentos de fuga, que son particularmente relevantes en el contexto de las wavelets. También mostramos cómo se producen las ondículas auditivas propuestas como la respuesta al impulso de un sistema lineal, invariante de desplazamiento, gobernado por una ecuación diferencial lineal con coeficientes constantes. Proponemos implementaciones de circuitos analógicos del CWT propuesto. También mostramos cómo se pueden usar las wavelets derivadas de Gammatone para la detección de singularidad y el análisis de frecuencia de tiempo de señales transitorias. También mostramos cómo se producen las ondículas auditivas propuestas como la respuesta al impulso de un sistema lineal, invariante de desplazamiento, gobernado por una ecuación diferencial lineal con coeficientes constantes. Proponemos implementaciones de circuitos analógicos del CWT propuesto. También mostramos cómo se pueden usar las wavelets derivadas de Gammatone para la detección de singularidad y el análisis de frecuencia de tiempo de señales transitorias. También mostramos cómo se producen las ondículas auditivas propuestas como la respuesta al impulso de un sistema lineal, invariante de desplazamiento, gobernado por una ecuación diferencial lineal con coeficientes constantes. Proponemos implementaciones de circuitos analógicos del CWT propuesto. También mostramos cómo se pueden usar las wavelets derivadas de Gammatone para la detección de singularidad y el análisis de frecuencia de tiempo de señales transitorias.

La transformación ERBlet: una representación de frecuencia de tiempo basada en la audición con reconstrucción perfecta , ICASSP 2013

Este artículo describe un método para obtener una representación de frecuencia de tiempo perceptualmente motivada y perfectamente invertible de una señal de sonido. Basado en la teoría de cuadros y la reciente transformación de Gabor no estacionaria, una representación lineal con resolución que evoluciona a través de la frecuencia se formula e implementa como un banco de filtros no uniforme. Para que coincida con la resolución de frecuencia de tiempo auditiva humana, la transformación utiliza ventanas gaussianas equidistantemente espaciadas en la escala de frecuencia psicoacústica "ERB". Además, la transformación presenta resolución y redundancia adaptables. Las simulaciones mostraron que se puede lograr una reconstrucción perfecta usando métodos iterativos rápidos y preacondicionamiento incluso usando un filtro por ERB y una redundancia muy baja (1.08).

Y mencionaré también:

Una transformación basada en la audición para el procesamiento de señales de audio , WASPAA 2009

En este artículo se presenta una transformación auditiva. A través de un proceso de análisis, la transformación convierte las señales del dominio del tiempo en un conjunto de salida de banco de filtros. Las respuestas de frecuencia y las distribuciones del banco de filtros son similares a las de la membrana basilar de la cóclea. El procesamiento de la señal puede realizarse en el dominio de señal descompuesto. A través de un proceso de síntesis, las señales descompuestas pueden sintetizarse nuevamente a la señal original a través de un cálculo simple. Además, se presentan algoritmos rápidos para señales de tiempo discreto para las transformaciones directas e inversas. La transformación ha sido aprobada en teoría y validada en experimentos. Se presenta un ejemplo de aplicación de reducción de ruido. La transformación propuesta es robusta a los ruidos de fondo y computacionales y está libre de armónicos de tono.

Laurent Duval
fuente
1
Esto es exactamente lo que estaba buscando. Gracias.
user76284