Estoy buscando desarrollar una aplicación para Android. Como parte de la funcionalidad, la aplicación requeriría muestrear aleatoriamente de 3 a 5 segundos de audio y clasificarlo como si contuviera o no un discurso humano. ¿Entiendo que este concepto se llama Detección de actividad de voz?
¿Cuál sería la mejor manera de implementar esto en un teléfono móvil? Desarrollé un sistema básico utilizando características y umbrales basados en energía. Espero encontrar algo menos susceptible al ruido, probablemente utilizando características como MFCC o formantes. Revisé varios documentos, pero la mayoría de ellos requerirían que recolecte datos y entrene modelos. ¿Hay alguna biblioteca o marco que pueda usar que funcione en tiempo real?