La versión corta de la pregunta: estoy buscando un software de reconocimiento de voz que se ejecute en Linux y tenga una precisión y facilidad de uso decentes. Cualquier licencia y precio está bien. No debe restringirse a los comandos de voz, ya que quiero poder dictar texto.
Más detalles:
He intentado insatisfactoriamente lo siguiente:
- CMU Sphinx
- CVoiceControl
- Orejas
- Julius
- Kaldi (p. Ej., Servidor Kaldi GStreamer )
- IBM ViaVoice (solía ejecutarse en Linux pero se suspendió hace años)
- NICO ANN Toolkit
- OpenMindSpeech
- RWTH ASR
- gritar
- silvius (construido en el kit de herramientas de reconocimiento de voz Kaldi)
- Simon escucha
- ViaVoice / Xvoice
- Wine + Dragon NaturallySpeaking + NatLink + dragonfly + damselfly
- https://github.com/DragonComputer/Dragonfire : solo acepta comandos de voz
Todas las soluciones nativas de Linux mencionadas anteriormente tienen poca precisión y facilidad de uso (o algunas no permiten el dictado de texto libre sino solo comandos de voz). Por mala precisión, quiero decir una precisión significativamente inferior a la que tiene el software de reconocimiento de voz que mencioné a continuación para otras plataformas. En cuanto a Wine + Dragon NaturallySpeaking, en mi experiencia sigue fallando, y desafortunadamente no parece ser el único en tener tales problemas.
En Microsoft Windows uso Dragon NaturallySpeaking, en Apple Mac OS XI uso Apple Dictation y DragonDictate, en Android uso el reconocimiento de voz de Google, y en iOS uso el reconocimiento de voz de Apple incorporado.
Baidu Research lanzó ayer el código para su biblioteca de reconocimiento de voz usando la Clasificación Temporal Connectionist implementada con Torch. Los puntos de referencia de Gigaom son alentadores, como se muestra en la siguiente captura de pantalla, pero no conozco ningún buen contenedor para que pueda usarse sin bastante codificación (y un gran conjunto de datos de entrenamiento):
Existen algunos proyectos de código abierto muy alfa:
- https://github.com/mozilla/DeepSpeech (parte del proyecto Vaani de Mozilla: http://vaani.io ( espejo ))
- https://github.com/pannous/tensorflow-speech-recognition
- Vox, un sistema para controlar un sistema Linux usando Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo (para ser lanzado por Google, mencionado en Interspeech 2018)
También soy consciente de este intento de rastrear los estados de las artes y los resultados recientes (bibliografía) sobre el reconocimiento de voz. así como este punto de referencia de las API de reconocimiento de voz existentes .
Soy consciente de Aenea , que permite el reconocimiento de voz a través de Dragonfly en una computadora para enviar eventos a otra, pero tiene un costo de latencia:
También estoy al tanto de estas dos conversaciones que exploran la opción de Linux para el reconocimiento de voz:
- 2016 - La Undécima ESPERANZA: Codificación por voz con reconocimiento de voz de código abierto (David Williams-King)
- 2014 - Pycon: uso de Python para codificar por voz (Tavis Rudd)
fuente
Respuestas:
En este momento estoy experimentando con el uso de KDE connect en combinación con el reconocimiento de voz de Google en mi teléfono inteligente Android.
KDE connect le permite usar su dispositivo Android como dispositivo de entrada para su computadora Linux (también hay algunas otras características). Debe instalar la aplicación KDE connect de Google Play Store en su teléfono inteligente / tableta e instalar kdeconnect e indicador-kdeconnect en su computadora Linux. Para los sistemas Ubuntu, la instalación es la siguiente:
La desventaja de esta instalación es que instala un montón de paquetes de KDE que no necesita si no utiliza el entorno de escritorio KDE.
Una vez que vincule su dispositivo Android con su computadora (deben estar en la misma red), puede usar el teclado de Android y luego hacer clic / presionar en el micrófono para usar el reconocimiento de voz de Google. Mientras habla, el texto comenzará a aparecer donde esté el cursor activo en su computadora Linux.
En cuanto a los resultados, están un poco confusos para mí, ya que actualmente estoy escribiendo un documento de astrofísica técnica y el reconocimiento de voz de Google está luchando con la jerga que normalmente no se lee. También olvídate de calcular la puntuación o la capitalización adecuada.
fuente
Por ahora, solo el cuaderno de voz funciona en Linux.
fuente
Cuando un Linuxer más buscaba un útil programa de voz a texto (dictado), eché un vistazo a speechpad.pw:
Desventajas:
Por lo tanto, speechpad.pw es de propiedad exclusiva y también de código cerrado y también está vinculado a Google, que todos conocemos como un colector de metadatos, información personal y contenido personal sin dormir.
Estos inconvenientes lo convierten en una aplicación prohibida para mí, aunque el reconocimiento de voz en sí funciona muy bien, mucho mejor que cualquier otra cosa que haya visto hasta ahora.
fuente
La aplicación de Chrome "VoiceNote II" ( http://voicenote.in/ ) funciona muy bien en mi máquina Xubuntu 16.04. No se requiere entrenamiento de voz, y la configuración fue simple. Una búsqueda para encontrarlo, un clic para instalar, un clic para crear un acceso directo y vincularlo al Escritorio.
fuente
Sugeriría usar dragon en su teléfono o tableta, y luego enviarse el texto por correo electrónico. Es un lastre pero funciona y es muy preciso. Si insiste en usar Linux para esto, obtener una segunda pantalla hará que la vida sea mucho más fácil de copiar y pegar.
No lo he intentado, pero es posible que pueda usar o adaptar el programa Python Bluetooth Chat con dragon en su tableta / teléfono. También puede haber aplicaciones de teclado remoto para dispositivos móviles que admitan la entrada de dictado.
Experimentaré e intentaré contactarte con algo más definitivo.
fuente
Estoy usando la aplicación KD Connect. ¡está funcionando con bastante eficacia! Puedo mantener mis ojos en el monitor mientras hablo con el teléfono en el escritorio. El único inconveniente es que esto se hace a través del teclado de Google. no es gratis, nativo ni de código abierto. Este comentario ha sido publicado sin hacer ninguna corrección de tipo
fuente
Puede usar voz a texto en la aplicación de Linux Esta aplicación usa Google Speech Api y un módulo de integración binario para Linux de 32 o 64 bits. Puede ver una breve presentación del uso de las herramientas speechpad.pw en Ubuntu
fuente