¿Cuáles son los equivalentes de audio de imágenes como "Lena", "Mandrill" y "Cameraman"?

Respuestas:

17

El ejemplo más cercano que se me ocurre es el comienzo del "Tom's Diner" de Suzanne Vega, que se ha utilizado para el desarrollo de la capa 3 de mpeg-1, y todavía se usa ocasionalmente para hacer una demostración de los códecs de audio.

pichenettes
fuente
3
sí, Tom's Diner es un fragmento de voz de canto razonablemente limpio (sin reverberación) y monofónico que es útil para probar programas de detección de tono. otro es un clip de Boyz II Men de su versión de "Yesterday" de los Beatles (justo al final). bueno para el seguimiento de tono de una voz monofónica. Es más duro que Tom's Diner. Recuerdo que Digital Performer lo usó.
robert bristow-johnson
16

El procesamiento de audio es un campo amplio, pero específicamente en el procesamiento del habla, se utiliza ampliamente una base de datos abierta de muestras conocida como Harvard Sentences . Las oraciones de Harvard son colecciones fonéticamente equilibradas de oraciones en inglés americano. Existen muchas bases de datos equivalentes para otros idiomas también.

Los archivos reales con el discurso de Harvard Sentences se pueden encontrar aquí .

Phonon
fuente
5

También creo que la base de datos NIST es muy popular cuando se trata de tareas de reconocimiento de voz. De hecho, es un estándar para la comparación de nuevos algoritmos y técnicas durante los desafíos anuales.

Además, el load handelfragmento que contiene MATLAB de GFHandel - Hallelujah se usa con bastante frecuencia.

jojek
fuente
2

No subestime la potencia de la onda sinusoidal de 1 kHz a 0 dBFS. En mono. Con eso se pueden encontrar muchas cosas que están mal con las rutas de señal.

He construido y calibrado suficientes sistemas de audio que puedo silbar 1 kHz con bastante exactitud. De simple memoria.

Aparte de eso, IGY by Donald Fagen es tan popular como pista de prueba que ha sido prohibido por varios festivales.

el hombre con un soldador
fuente