Beyond Spectrograms: Rethinking Audio Classification from EnCodec's Latent Space

Jorge Perianez-Pascual, Juan D. Gutiérrez, Laura Escobar-Encinas, Álvaro Rubio-Largo, Roberto Rodriguez-Echeverria

febrero 2025

Resumen

Este artículo presenta un enfoque innovador para la clasificación de audio, aprovechando la representación latente generada por el códec de audio neuronal EnCodec de Meta. Nuestra hipótesis es que el espacio latente comprimido captura características esenciales del audio, ofreciendo una representación más adecuada para tareas de clasificación que los enfoques tradicionales basados en espectrogramas. Para validar esta hipótesis, entrenamos una red neuronal convolucional estándar para clasificar géneros musicales, distinguir entre habla y música, y reconocer sonidos ambientales, utilizando como entrada la salida del codificador de EnCodec. Posteriormente, comparamos su rendimiento con el de la misma red al emplear una representación basada en espectrogramas. Nuestros experimentos demuestran que este método alcanza una precisión comparable a la de las técnicas más avanzadas, pero con una convergencia significativamente más rápida y una menor carga computacional durante el entrenamiento. Estos resultados resaltan el potencial de la representación latente de EnCodec para aplicaciones de clasificación de audio más eficientes, rápidas y de menor costo. Además, analizamos las características de la salida de EnCodec y comparamos su desempeño con los métodos tradicionales basados en espectrogramas, lo que nos permite comprender mejor las ventajas de este nuevo enfoque.

Tipo

Artículo de revista

Publicación

Algorithms