Digamos que hay 3 personas en la habitación. Cada uno de ellos tiene un timbre de voz único. Quiero reconocer a las personas por su timbre y saber quién habla.
7
La tarea de tomar una larga grabación de audio contigua y dividirla en trozos en los que solo un hablante está hablando, sin ningún conocimiento previo sobre las características de voz de cada hablante, se llama "Diariación del hablante". Puede encontrar enlaces al código de investigación en la página de wikipedia .
Si tiene grabaciones anteriores de cada voz, y prefiere hacer la clasificación, este es un problema ligeramente diferente (reconocimiento de altavoz o identificación de altavoz). Las herramientas de software para eso están disponibles aquí (tenga en cuenta que los paquetes de reconocimiento de voz de propósitos generales como Sphinx o HTK son lo suficientemente flexibles como para ser inducidos a hacerlo).