¿Existe alguna aplicación existente para muestrear la voz de alguien y usarla para modular cualquier otra voz o sintetizar un texto para que se parezca al original?
Por ejemplo, esta demostración de texto a voz de AT&T le permite elegir una voz y un idioma de los ajustes preestablecidos que supongo que se basan en alguna voz humana que se ha muestreado.
¿Cómo se llama este proceso? ¿Es modulación de voz? Síntesis de voz?
modulation
voice
clapas
fuente
fuente
Respuestas:
Una primera nota: la mayoría de los sistemas modernos de texto a voz, como el de AT&T con el que se ha vinculado, utilizan síntesis de voz concatenativa . Esta técnica utiliza una gran base de datos de grabaciones de la voz de una persona que pronuncia una larga colección de oraciones, seleccionadas para que exista la mayor cantidad de combinaciones de fonemas. Se puede sintetizar una oración simplemente uniendo segmentos de este corpus: el desafío es hacer que la unión sea perfecta y expresiva.
Hay dos grandes obstáculos si desea utilizar esta técnica para hacer que el presidente Obama diga palabras embarazosas:
Su intuición de que esta es una posible solución es válida, siempre que tenga el presupuesto para abordar estos dos problemas.
Afortunadamente, existen otras técnicas que pueden funcionar con menos supervisión y menos datos. El campo de síntesis de voz interesado en "falsificar" o "imitar" una voz de una grabación se conoce como conversión de voz . Tiene una grabación A1 del hablante objetivo A que dice la oración 1, y una grabación B2 del hablante fuente B que dice la oración 2, tiene como objetivo producir una grabación A2 del hablante A que dice la oración 2, posiblemente con acceso a una grabación B1 de la reproducción del hablante B con su voz la misma expresión que el hablante objetivo.
El esquema de un sistema de conversión de voz es el siguiente:
Insisto en el hecho de que esto funciona a un nivel mucho más bajo que realizar reconocimiento de voz en B2, y luego hacer TTS usando la voz de A1 como corpus.
Se utilizan varias técnicas estadísticas para los pasos 1 y 2: GMM o VQ son las más comunes. Se utilizan varios algoritmos de alineación para la parte 2: esta es la parte más complicada, y obviamente es más fácil alinear A1 vs B1 que A1 vs B2. En el caso más simple, métodos como Dynamic Time Warping pueden usarse para hacer la alineación. En cuanto al paso 4, la transformación más común son las transformaciones lineales (multiplicación de matrices) en los vectores de características. Las transformaciones más complejas crean imitaciones más realistas, pero el problema de regresión para encontrar el mapeo óptimo es más complejo de resolver. Finalmente, en cuanto al paso 5, la calidad de la resíntesis está limitada por las características utilizadas. Los LPC son generalmente más fáciles de manejar con un método de transformación simple (tomar marco de señal -> estimar residual y espectro de LPC -> si es necesario residual de cambio de tono -> aplicar espectro de LPC modificado al residuo modificado). ¡La clave aquí es utilizar una representación del habla que pueda invertirse nuevamente en el dominio del tiempo y que proporcione una buena separación entre prosodia y fonemas! Finalmente, siempre que tenga acceso a grabaciones alineadas de los hablantes A y B que dicen la misma oración, hay modelos estadísticos que abordan simultáneamente los pasos 1, 2, 3 y 4 en un solo procedimiento de estimación de modelo.
Podría volver con una bibliografía más tarde, pero un muy buen lugar para comenzar a tener una idea del problema y el marco general utilizado para resolverlo es el sistema "A de Stylianou, Moulines y Cappé" para la conversión de voz basado en clasificación probabilística y un armónico. modelo plus de ruido ".
Que yo sepa, no existe una gran cantidad de software que realice la conversión de voz, solo propiedades de modificación de software de la voz de origen, como parámetros de tono y longitud del tracto vocal (por ejemplo, el transformador IRCAM TRAX), con los que tiene que meterse con la esperanza de hacer su grabación de sonido más cerca de la voz objetivo.
fuente
Puedes usar algo como MorphVox . Aquí hay una demostración. El proceso se llama transformación de voz o conversión. Si está interesado en los aspectos técnicos, un artículo reciente que puede estudiar es Conversión de voz usando la regresión de mínimos cuadrados parciales del núcleo dinámico .
fuente
Estoy buscando lo mismo, pero no se puede hacer. Hay una compañía en Escocia llamada CereProc que hace modelado de voz, pero necesitan a alguien en su laboratorio que grabe horas de audio y el costo para modelar una sola voz es de alrededor de USD $ 30K.
fuente
Lo que estás buscando se llama vocoder.
¿Has probado el vocoder de Audcity? Audacity se puede descargar desde: http://audacity.sourceforge.net/download . Puede encontrar una demostración sobre cómo usarlo en https://www.youtube.com/watch?v=J_rPEmJfwNs .
fuente