Beyond Spectrograms: Rethinking Audio Classification from EnCodec's Latent Space

Resumen

Este artículo presenta un enfoque innovador para la clasificación de audio, aprovechando la representación latente generada por el códec de audio neuronal EnCodec de Meta. Nuestra hipótesis es que el espacio latente comprimido captura características esenciales del audio, ofreciendo una representación más adecuada para tareas de clasificación que los enfoques tradicionales basados en espectrogramas. Para validar esta hipótesis, entrenamos una red neuronal convolucional estándar para clasificar géneros musicales, distinguir entre habla y música, y reconocer sonidos ambientales, utilizando como entrada la salida del codificador de EnCodec. Posteriormente, comparamos su rendimiento con el de la misma red al emplear una representación basada en espectrogramas. Nuestros experimentos demuestran que este método alcanza una precisión comparable a la de las técnicas más avanzadas, pero con una convergencia significativamente más rápida y una menor carga computacional durante el entrenamiento. Estos resultados resaltan el potencial de la representación latente de EnCodec para aplicaciones de clasificación de audio más eficientes, rápidas y de menor costo. Además, analizamos las características de la salida de EnCodec y comparamos su desempeño con los métodos tradicionales basados en espectrogramas, lo que nos permite comprender mejor las ventajas de este nuevo enfoque.

Publicación
Algorithms
Jorge Perianez
Jorge Perianez
Investigador

Ingeniero de software e investigador en i3lab. Co-fundador de MetrikaMedia.

Juan D. Gutiérrez
Juan D. Gutiérrez
Profesor Ayudante Doctor

Profesor Ayudante Doctor en la Universidade de Santiago de Compostela. Me gusta la informática pero, sobre todo, aprender cosas nuevas.

Roberto Rodriguez-Echeverria
Roberto Rodriguez-Echeverria
Profesor titular

Profesor titular en la Universidad de Extremadura. Software passionate, Deep learner, MTB rider and father of 2.