Entonces, acabo de enterarme de que la voz humana no es una sola onda sinusoidal, es un montón de ondas sinusoidales ilimitadas, cada una con diferentes frecuencias,
De acuerdo con Wikipedia,
La voz consiste en un sonido hecho por un ser humano que utiliza las cuerdas vocales para hablar, cantar, reír, llorar, gritar, etc. Su frecuencia varía de aproximadamente 60 a 7000 Hz.
Entonces, si la voz humana es una señal compuesta, contiene varios rangos de frecuencias entre 60Hz y 7KHz.
Supongamos que si hay un grupo de personas cantando la misma canción todos juntos, cada persona tiene sus propios rangos de frecuencias de voz,
Por ejemplo,
Si una persona A tiene las siguientes frecuencias, 100Hz, 250HZ 6KHz, 10Hz, 87Hz, 52Hz, 2KHz .......
y una persona B tiene lo siguiente, 217Hz1, 11Hz, 12Hz, 2323Hz, 839Hz, 4KHz, 100Hz, 10Hz .....
debe haber tantas frecuencias que sean similares tanto en la persona A y B, como en el ejemplo anterior, las frecuencias de 100Hz y 10Hz son comunes entre dos personas.
Estaba viendo el nombre de un programa de televisión "Fringe", donde filtran la voz del hombre en particular de un archivo de audio, mientras que había otras personas presentes allí también.
Entonces, ¿cómo filtran exactamente la voz de alguien de la voz de cientos de personas si hay tantas frecuencias comunes entre todas ellas? ¿Tiene que ver algo con las amplitudes de las frecuencias de las personas?
Respuestas:
Si la señal se graba usando solo un micrófono, puede usar métodos como la resta espectral. Este método es más adecuado para el ruido "constante", como el ruido de un ventilador o un motor inactivo. Otros métodos se basan en estadísticas y modelos perceptivos del habla. Si la señal se graba con varios micrófonos, puede usar la separación de fuente ciega para separar las señales (del habla). Tal como está hoy, no obtendrá resultados perfectos. El resultado final típico es siempre una compensación entre "ruido" y la claridad de la señal de voz de interés. Más supresión de "ruido" -> más degradación de la señal de interés.
fuente
bueno, digamos que tenemos un archivo de sonido de dos personas hablando ... si no estuvieran hablando al unísono, sería posible separar el elemento tonal de su discurso. puede ser más complicado separar los elementos de ruido de su discurso (ssss o sonidos fffff), pero nuevamente si no estaban hablando al unísono, podría ser posible. Esto sería mucho más fácil de hacer si pudiéramos realizar un análisis espectral del sonido sin perder la información de fase.
Básicamente, el análisis espectral toma una forma de onda (sonido como onda única o línea) y separa todos los tonos individuales para que pueda verlos de bajo a alto y de izquierda a derecha en el tiempo. Al hacer esto, se pierde la mayor parte de la información que muestra el ascenso y la caída de la forma de onda única. si pudiéramos preservar la información de fase, esto sería mucho más fácil porque todas las frecuencias de componentes individuales de una voz estarían relacionadas armónicamente entre sí, por lo que su fase se alinearía.
En la actualidad, no conozco ningún algoritmo que logre esto, pero creo que es teóricamente posible. Recuerdo haber leído un artículo sobre el creador de melodyne, Peter Neubäcker, trabajando en una forma de hacer esto, para que dos cantantes que cantaran juntos pudieran separarse, pero no sé cómo encontraría este artículo nuevamente.
fuente