Estoy tratando de detectar y clasificar los sonidos que no son del habla. Actualmente, estoy usando una serie de espectros de poder superpuestos en movimiento de los sonidos de entrenamiento como las características que estoy buscando.
Cuando hago análisis, solo estoy calculando la misma cantidad de espectros superpuestos para que la cantidad de características sea la misma. En este momento el rendimiento no es muy bueno, solo puede detectar silencio vs no silencio.
¿Qué técnicas hay para este tipo de detección de señal? Una de mis preocupaciones es que los sonidos de diferentes longitudes en el dominio del tiempo darían como resultado diferentes longitudes de vectores de características, por lo que no puedo usar el mismo clasificador, estoy atascado en esto.