¿Sonido natural de texto a voz?

Respuestas:

51

SVOX pico2wave

Un TTS muy minimalista, un mejor sonido que espeak o mbrola (en mi opinión). Alguna información aquí .

No entiendo por qué pico2wave, en comparación con espeak o mbrola, rara vez se discute. Es pequeño, pero suena muy bien (natural). Sin modificaciones, escuchará una voz femenina que suena natural.

Y ... en comparación con Mbrola, reconoce Unidades y lo dice de la manera correcta.
Por ejemplo:

  • 2 ° C → dos grados
  • 2m → dos metros
  • 2 kg → dos kilogramos

Después de la instalación, lo uso en un script:

#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav

Luego ejecútelo con el texto deseado:

<scriptname>.sh "hello world"

o lea el contenido de un archivo completo:

<scriptname>.sh "$(cat <filename>)"

Eso es todo para tener un TTS de trabajo ligero y estable en Ubuntu.

usuario85321
fuente
1
Por lo que puedo ver, solo usa parámetros cli como entrada. ¿Hay alguna forma de que pico2wave lea el texto de un nombre de archivo?
Carlos Eugenio Thompson Pinzón
13
pico2waveestá en el paquete libttspico-utilsen versiones recientes de ubuntu. @ CarlosEugenioThompsonPinzóncat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo
naught101
1
@ CarlosEugenioThompsonPinzón pico2wave -w a.wav "$(input.txt)"=). Acuerde que esta interfaz CLI es un mal diseño: a diferencia de la gran mayoría de las CLI, y es posible alcanzar la longitud máxima de arg de CLI del sistema operativo .
Ciro Santilli 新疆 改造 中心 法轮功 六四 事件
1
@ Koen no lo sé! :-) Como cualquier otro problema, intente producir un ejemplo mínimo, por ejemplo, usandoecho {1..1000}
Ciro Santilli 新疆 改造 中心 法轮功 六四 事件
1
@ user49557 Se supone que no debemos secuestrar las preguntas de los demás, por lo que tal vez puedas crear una nueva pregunta, explicando qué es exactamente lo que instalaste y qué fue lo que salió mal, y luego siempre puedo tratar de ayudarte (sin garantías, sin embargo , No soy un experto: P)
Koen
22

¡Hablalo!

Creo que he encontrado el mejor software TTS gratis usando una extensión de Google Chrome llamada "SpeakIt". Esto solo funciona en el navegador Chrome para mí en Ubuntu. No funciona con cromo por alguna razón. SpeakIt viene con dos voces femeninas que suenan muy realistas en comparación con todo lo demás. Hay al menos cuatro voces masculinas y femeninas más enlistadas en extensiones de Chrome si busca en Chrome Web Store usando "TTS" como su consulta.

Uso : Para uso en un sitio web. resalta el texto que desea que se lea y haga clic derecho y "SpeakIt" o haga clic en el icono SpeakIt acoplado en la barra superior de Chrome.


Los usuarios de Firefox también tienen dos opciones. Dentro de los complementos de Firefox, haga una búsqueda de TTS y debería encontrar "Haga clic en Hablar" y también "Texto a voz". Las voces no son tan buenas como las de Chrome SpeakIt, pero definitivamente son utilizables.

La extensión SpeakIt utiliza la tecnología iSpeech y, por un precio de $ 20 al año, el sitio puede convertir texto a archivos de audio MP3. Puede ingresar texto, URL, fuentes RSS, así como documentos como TXT, DOC y PDF y enviarlos a MP3. Puede hacer podcast, incrustar audio, etc. Aquí hay un enlace y una muestra de su audio (no sé cuánto durará el enlace).

I Heart Ubuntu
fuente
3
Lamentablemente, ninguna de las opciones del navegador funciona para archivos PDF. ¿Te has encontrado con uno que lo haga? Me gustaría poder seleccionar párrafos para leer desde un PDF (es decir, no tener que pegar bits en el terminal u otro)
James Owers
1
¡Esta extensión funciona para mí en Chrome 50.0.2661.94 usando Debian 8.4 y es genial! Me gusta especialmente la voz femenina en inglés. Mi única queja es que se detiene demasiado tiempo en comas.
mulllhausen
A menudo pronuncia mal las palabras y también lleva tiempo enviar el texto a un servidor separado en lugar de usar su propio sistema.
Goddard
14

Pico y espeak son divertidos y fáciles de conseguir, pero no son tan buenos. Las voces predeterminadas del Festival tampoco son tan buenas. Sin embargo, el Festival es un marco de discurso basado en esquemas, donde varios investigadores han construido voces de plug-in mucho mejores. Puede superar fácilmente la calidad pico2wave en Ubuntu, porque una de esas voces está disponible como un paquete listo para usar.

Para que el Festival suene natural, esto es lo que debe hacer:

sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts) 
festival> (SayText "Don't hate me, I'm just doing my job!")

Puede hacerlo desde la línea de comandos usando -b(o --batch) y poniendo cada comando entre comillas simples:

festival -b '(voice_cmu_us_slt_arctic_hts)' \
    '(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'

Puede obtener otras voces bastante buenas del repositorio de Nitech, pero instalarlas es complicado, y las rutas predeterminadas cambiaron, por lo que las referencias de nombre de archivo en los archivos de esquema empaquetados pueden necesitar editarse manualmente para funcionar en Ubuntu.

Jon Watte
fuente
2
Por cierto, en Ubuntu 16.04, este paquete parece faltar. Puede descargar e instalar el Deb desde Debian y funcionará bien: packages.debian.org/sid/all/festvox-us-slt-hts/download sudo dpkg -i Downloads / festvox-us-slt-hts_0.2010.10. 25-2_todos.deb
Jon Watte
13

Google ™ TTS simple

Actualización de la página del proyecto (2019-02) : este proyecto actualmente no se mantiene y lo seguirá siendo en el futuro previsible


Debido a la falta de una mejor alternativa, escribí un script bash que interactúa con un script perl de Michal Fapso para proporcionar TTS a través del Traductor de Google. De la descripción del proyecto:

La intención es proporcionar una interfaz fácil de usar para la salida de texto a voz a través del sistema de síntesis de voz de Google. Una opción alternativa que utiliza pico2wave proporciona automáticamente la síntesis de TTS en caso de que no se encuentre una conexión a Internet.

Tal como está, el contenedor admite la lectura de entradas estándar, archivos de texto sin formato y la selección X (texto resaltado).

Las características principales son:

  • síntesis de TTS en línea a través del traductor de Google
  • síntesis TTS fuera de línea a través de pico2wave
  • admite una variedad de idiomas diferentes
  • puede leer desde CLI, archivos de texto y texto resaltado
  • admite la lectura de texto resaltado con formato fijo (por ejemplo, archivos PDF)

La instalación y el uso están documentados en la página del proyecto .

Me alegraría que lo intentaras. ¡Los informes de errores y cualquier otro comentario son bienvenidos!

Glutanimato
fuente
Este tiene que ser uno de los mejores proyectos que he visto. Simplemente guau. 😲
55
Esto ya no se mantiene.
Goddard
8

He buscado por todas partes el texto a voz para Ubuntu que es de alta calidad. No hay ninguno. Mis cuerdas vocales están paralizadas, así que necesitaba TTS para agregar instrucciones de voz a mis videos de Ubuntu . Puede obtener software comercial de texto a voz de Linux de alta calidad aquí . Es realmente muy caro. Terminé comprando Natural Reader para Windows (no funciona en Ubuntu bajo Wine) por $ 40. Quizás más tarde obtenga el de Linux.

Joe Steiger
fuente
amigo, lo hay y lo estaba usando como la semana pasada hay al menos 5 o 6 y no puedo por mi vida encontrar ninguno de ellos ahora,
tengo
Textaloud tiene instrucciones para que su producto funcione bajo el vino. ver nextup.com/forum/viewtopic.php?t=3349 Creo que Cepstral también tiene un puerto Linux. No he podido hacer funcionar mi software balabolka favorito. Tengo Windows 10 instalado principalmente para el procesamiento de tts. MS David es bueno y similar a David cepstral. La anterior es gratuita si tiene Windows 10.
Bhikkhu Subhuti
6

He estado investigando sobre el mejor sonido y la sintonización de las voces de texto a voz. A continuación hay una lista de lo que pensé que eran los 5 mejores productos en orden de calidad de sonido. La mayoría de los sitios web asociados con estos productos tienen una demostración interactiva que le permitirá tomar su propia determinación.

  1. NeoSpeech
  2. iVona
  3. Acapela
  4. Voces naturales de AT&T
  5. Voces CereProc
Jim
fuente
1
¿hay disponibles para linux? No lo creo
Mehdi Khademloo
5

Las voces de Nitech HTS en el festival me parecen muy naturales y reconfortantes con respecto a cualquier otra voz que haya escuchado. Vea este enlace sobre cómo configurar Nitech y otros sonidos con festival. No he encontrado una buena interfaz gráfica de usuario que pueda usar para configurar esas voces, pero configurarlas a través de festival.scm todavía funciona. Esa publicación es muy antigua y es posible que desee encontrar el directorio de instalación real utilizando el comando "localizar festival"

maquinilla de afeitar
fuente
Parece ser muy bueno Demos encontradas aquí cstr.ed.ac.uk/projects/festival/onlinedemo.html
Iacchus
2
Sí, las voces de Nitech están muy por encima de otras voces del Festival (excepto las voces de CMU, que también son muy buenas). Lástima que sean difíciles de instalar. Hay una buena voz de CMU que tiene un paquete predeterminado en Ubunut, se llama cmu_us_slt_arctic_hts y viene en el paquete festvox-us-slt-hts. ¡Es mucho mejor que pico o espeak!
Jon Watte
5

Combine las herramientas SVOX (pico) con LibreOffice:

Las herramientas SVOX (pico) son fáciles de instalar y brindan voces de buena calidad en Ubuntu. Instalarlo:

sudo apt-get install libttspico0 libttspico-utils libttspico-data

Puede usar LibreOffice en combinación con las herramientas SVOX (pico) instalando la extensión "Leer texto" y obtendrá una "GUI" para este excelente software TTS:

Configure las opciones de Leer extensión de texto con Herramientas - Complementos - Selección de lectura ... Use / usr / bin / python como programa externo. Seleccione una opción de línea de comando que incluya el token (PICO_READ_TEXT_PY) , es posible que desee experimentar algunos de ellos.

Ahora solo tiene que seleccionar texto en LO Writer, Calc, Impress o Draw y hacer clic en el icono agregado como barra de herramientas (una cara feliz con un globo).

leoperbo
fuente
4

Esto es lo que hice para tener un lenguaje natural puro para PDF y otros archivos de texto (otras soluciones no son naturales o son solo servicios pagados). Esto es realmente una solución para usar cromo o cromo, pero funciona de manera rápida y fácil.

  1. Instalar SpeakIt! extensión en su cromo o cromo.
  2. Instale PDF Viewer si está utilizando cromo (Chrome ya tiene un visor de pdf gratis) y marque las opciones 'Permitir en modo incógnito' y 'Permitir acceso a URL de archivos' en la configuración de extensiones de cromo.
  3. Arrastra y suelta tu pdf al navegador.
  4. ¡Ahora resalte un poco de texto y haga clic derecho y seleccione SpeakIt! para que pueda escuchar texto a voz natural puro.

También hay formas de abrir otros archivos como .doc y .txt en Chrome y hacer lo mismo. Hay otras extensiones para Chrome que ven archivos PDF, compruebe si le queda mejor. Además, puede cargar todo tipo de textos en Google Drive y usar SpeakIt! para leerlo por ti. Otra extensión llamada 'Hablar texto' funciona de la misma manera y tiene un habla natural.

Pouya Sanooei
fuente
¿Podría explicar cómo hacer que SpeakIt lea archivos pdf guardados en Google Drive?
Marco Lackovic
2

Al buscar un mejor motor tts para usar con el nuevo modo narrativo firefox 49, encontré pico tts (svox), mi motor TTS favorito.

sudo apt install espeak libttspico0 libttspico-data libttspico-utils

¿Cómo cambiar el sistema de motor de síntesis de voz predeterminado en todo el sistema?

La gente de Arch Linux me llevó al camino correcto:

Descomente el módulo que desee y hágalo predeterminado en la configuración del despachador de voz:

# sudo vim /etc/speech-dispatcher/speechd.conf

[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak"       "sd_espeak"   "espeak.conf"
AddModule "pico-generic"  "sd_generic"   "pico-generic.conf"

[...]
#DefaultModule espeak
DefaultModule pico-generic

Reinicia el demonio:

# sudo systemctl restart speech-dispatcher.service

PERO, cuando se inicia Firefox nuevamente, no pasa nada. De acuerdo con el enlace anterior (publicación del foro del arco # 10 y # 16) funciona con el festival (no lo intentó), pero el despachador de voz para pico no enumera las voces disponibles. No correrá.

Cualquier idea por ahí sería muy apreciada ;-)

apos
fuente
1

Mi programa favorito de texto a voz se llama Magic English, pero al igual que Natural Reader mencionado por Joe Steiger, es un programa de Windows y no estoy seguro de si se ejecutará en Wine.

AT&T Natural Voices está disponible en línea como una demostración, pero es más una solución que una solución ...

Chris Granger
fuente
1

Google ™ TTS simple

Pico, mbrola, cmu, festival, flite, todo SUCK en 2017 (fueron increíbles en los años 90). El discurso natural de AT&T (que es fantástico) no es compatible con Linux y no es gratuito, por lo tanto, usamos Google

git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -
Jonathan
fuente
Este es un duplicado de la respuesta de Glutanimate (el autor de ese proyecto). Además: "Actualización de estado: este proyecto está actualmente sin mantenimiento y lo seguirá siendo en el futuro previsible". Sugiere algunas alternativas
Pablo A
1

gTTS

gTTS ( Google Text-to-Speech ), una biblioteca de Python y una herramienta CLI para interactuar con la API de texto a voz de Google Translate. Escribe mp3datos hablados en un archivo, un objeto similar a un archivo (cadena de bytes) para una mayor manipulación de audio, o stdout.

Contras : solo CLI. Debe estar en línea, ya que requiere solicitar al punto final abierto público de Google.

sudo -H pip install gTTS  # Install

Uso

gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -

Documentación y más ejemplos.

Otros

Algunos ya fueron mencionados

Pablo A
fuente
0

Para eso construyo Intelligent Speaker - extensión para Google Chrome. Puede leer páginas incluso sin selección (cuando la detención de texto es correcta).

Vitaly Zdanevich
fuente