Detecta el habla humana en audio en tiempo real en teléfonos móviles

Estoy buscando desarrollar una aplicación para Android. Como parte de la funcionalidad, la aplicación requeriría muestrear aleatoriamente de 3 a 5 segundos de audio y clasificarlo como si contuviera o no un discurso humano. ¿Entiendo que este concepto se llama Detección de actividad de voz?

¿Cuál sería la mejor manera de implementar esto en un teléfono móvil? Desarrollé un sistema básico utilizando características y umbrales basados en energía. Espero encontrar algo menos susceptible al ruido, probablemente utilizando características como MFCC o formantes. Revisé varios documentos, pero la mayoría de ellos requerirían que recolecte datos y entrene modelos. ¿Hay alguna biblioteca o marco que pueda usar que funcione en tiempo real?

audio speech real-time Dony George
fuente

Respuestas:

Creo que speex en http://www.speex.org/ código fuente abierto tiene VAD adentro. Intente ver si puede verlo y obtenga algunas ideas de implementación, con la obtención de su licencia.

VladP
fuente