Una técnica de procesamiento de señales, la frecuencia de Mel Cepstrum , se usa a menudo para extraer información de una pieza musical para usarla en una tarea de aprendizaje automático. Este método proporciona un espectro de potencia a corto plazo, y los coeficientes se utilizan como entrada.
Al diseñar sistemas de recuperación de música, dichos coeficientes se consideran característicos de una pieza (obviamente no necesariamente únicos, sino distintivos). ¿Hay alguna característica que se adapte mejor al aprendizaje con una red? ¿ Funcionarían con mayor eficacia características que varían en el tiempo, como la progresión de graves de la pieza utilizada en algo así como una red Elman ?
¿Qué características formarían un conjunto lo suficientemente extenso sobre el cual podría tener lugar la clasificación?
Respuestas:
Trabajamos un poco en esto en un momento. El conjunto de características que extrajimos se dan en este documento de taller de NIPS . Tengo que admitir que no pudimos replicar los resultados de otros autores en el campo, aunque hubo algunas dudas sobre los conjuntos de datos utilizados en estos (tenga en cuenta que los conjuntos de datos utilizados por los autores en este campo tienden a ser seleccionados a mano y no publicados) al público, por razones de derechos de autor, aunque este no siempre es el caso). Esencialmente, todas eran características espectrales a corto plazocon coeficientes de autorregresión incluidos también. Estábamos buscando una clasificación de género, que sabemos que puede ser realizada por humanos (aunque no con una precisión maravillosa, y no con un acuerdo consistente ...) en períodos de tiempo muy cortos (<1s), lo que valida el uso de características a corto plazo. . Si está interesado en hacer cosas más complicadas que la clasificación típica de género / artista / álbum / productor, entonces es posible que necesite más funciones de largo alcance, de lo contrario, estas características espectrales a corto plazo tienden a funcionar mejor.
fuente