Mi problema es que no conozco la energía del ruido de fondo, así que no puedo limitar la energía. El procesamiento se realiza en tiempo real, y tengo unos 500 ms para decidir. Idealmente, me gustaría que las consonantes silenciosas se consideren no silenciosas.
audio
speech-recognition
Michael Litvin
fuente
fuente
Respuestas:
Hay varios parámetros que puede observar:
Creo que una combinación de estos tres debería dar un esquema de detección bastante robusto.
fuente