¡Espectrogramas y más allá!

Es un placer comenzar el año (aunque ya estemos en febrero) celebrando la publicación de un nuevo artículo de nuestro laboratorio. En esta ocasión, se trata de “Beyond Spectrograms: Rethinking Audio Classification from EnCodec’s Latent Space”. En este trabajo, nos planteamos la siguiente pregunta: ¿qué pasaría si la representación latente de un codec de audio neuronal se utilizara en un pipeline de clasificación de audio? Lo que hemos descubierto te sorprenderá. Échale un vistazo al artículo y dinos qué opinas.

Este trabajo es uno de los resultados de la tesis en la que está trabajando Jorge Perianez Pascual, miembro de nuestro laboratorio. Curiosamente, el concepto de utilizar el espacio latente de EnCodec para la clasificación fue descrito inicialmente como rayando lo poco convencional, pero nuestros resultados demuestran su efectividad. Al ir más allá de los métodos tradicionales basados en espectrogramas, descubrimos nuevas posibilidades para una clasificación de audio más eficiente y precisa.

Este logro no habría sido posible sin la colaboración de Álvaro Rubio Largo y Laura Escobar Encinas, dos compañeros de la Universidad de Extremadura que aportaron su experiencia multidisciplinar tanto durante el proceso de desarrollo y experimentación como en la redacción del artículo.

Beyond Spectrograms es uno de los resultados de musicgenia, un proyecto financiado por la ayuda CPP2021-008491 del MICIU/AEI/10.13039/50100011033 y por la Unión Europea a través de NextGenerationEU/PRTR. El principal objetivo de musicgenia es desarrollar una plataforma en la nube que ofrezca música generada por inteligencia artificial como servicio para creadores de contenido y medios, tanto en línea (generación de música en vivo) como fuera de línea (generación de música pregrabada). Los beneficios directos de esta plataforma incluyen: (1) música libre de regalías, (2) música original, (3) facilidad para encontrar música adecuada para cada contenido y (4) música en streaming, con un modelo de consumo flexible en el que se paga por segundos y no por canción.

Juan D. Gutiérrez
Juan D. Gutiérrez
Profesor Ayudante Doctor

Profesor Ayudante Doctor en la Universidade de Santiago de Compostela. Me gusta la informática pero, sobre todo, aprender cosas nuevas.