¿Aplicación de reconocimiento de voz para convertir MP3 a texto?

27

¿Alguien sabe de una aplicación que pueda convertir audio a texto? Estoy ejecutando ubuntu 12.04 LTS.

Kopano
fuente
Supongo que es texto hablado. ¿En qué idioma está ese texto?
Martin Ueding
El texto del discurso está en inglés simple.
Kopano

Respuestas:

21

El software que puede usar es CMUSphinx . A diferencia de lo sugerido en otra respuesta, Julius no es adecuado porque requiere modelos. Los modelos de reconocimiento de voz de vocabulario extenso no están disponibles para Julius.

Puede usar pocketsphinx para convertir archivos de audio. Esos dos comandos deben hacer el trabajo. Primero convierte el archivo al formato requerido y luego lo reconoce:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

La corrida de la esfinge

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

El resultado se almacenará en result.txt.

Nikolay Shmyrev
fuente
Además, como una adición a esta respuesta, hay una demostración genial de ambas speech recognitiony voice commandherramientas aquí: youtube.com/…
Daithí
¿Cómo agrega un modelo acústico al sistema?
jarno
Simplemente descargue y desempaquete, no hay tal cosa como "agregar al sistema"
Nikolay Shmyrev
@NikolayShmyrev ¿Dónde debo desempacarlo para que pocketsphinx_continuous lo encuentre?
jarno
44
Bueno, instalé los paquetes pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj y pocketsphinx-lm-en-hub4 en el repositorio universal de Ubuntu 14.04. Entonces pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.logtrabajado. Tal vez no sean paquetes óptimos, pero fueron las mejores coincidencias que pude encontrar en los repositorios.
jarno
12

Sé que esto es antiguo, pero para ampliar la respuesta de Nikolay y, con suerte, salvar a alguien en el futuro, para que una versión actualizada de pocketsphinx funcione, debe compilarla desde el repositorio de github o sourceforge (no estoy seguro) que se mantiene más actualizado). Tenga en cuenta que -j8 significa ejecutar 8 trabajos separados en paralelo si es posible; Si tiene más núcleos de CPU, puede aumentar el número.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Luego, desde: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ descargue las versiones más recientes de cmusphinx-en-us-....tar.gzyen-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Luego, finalmente puede continuar con los pasos de la respuesta de Nikolay:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sphinx funciona bien. No confiaría en él para hacer una versión legible del texto, pero es lo suficientemente bueno como para que pueda buscarlo si está buscando una cita en particular. Eso funciona especialmente bien si utiliza un algoritmo de búsqueda como Xapian ( http://www.lesbonscomptes.com/recoll/ ) que acepta comodines y no requiere expresiones de búsqueda exactas.

Espero que esto ayude.

Jonathan Perry-Houts
fuente
44
todo funciona de maravilla, pero en mi caso tuve que ejecutar el siguiente comando para arreglar pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Vijay Dohare
Esto también se recomienda en cmusphinx.github.io/wiki/tutorialpocketsphinx/…
andrybak
11

Si está buscando convertir voz a texto, puede intentar abrir su Centro de software de Ubuntu y buscar Julius

Descripción

"Julius" es un software decodificador de reconocimiento de voz continuo (LVCSR) de alto rendimiento y vocabulario grande de dos pasadas para investigadores y desarrolladores relacionados con el habla.

O otra opción que no está en el Centro de software es Simon

... es un programa de reconocimiento de voz de código abierto y reemplaza el mouse y el teclado.

Enlaces de referencia

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

CoalaWeb
fuente
1

Puede usar el panel de transcripción speechpad.pw

Ver video sobre el uso de la transcripción

alexei
fuente
Eso se ve bien, aunque no creo que responda la pregunta que era obtener una transcripción de un archivo existente. Dicho esto, acabo de probar Sphinx y falló miserablemente ... la transcripción fue 99.9% incorrecta.
Alexis Wilke