Representation learning for music classification and retrieval: bridging the gap between natural language and music semantics

Author

Won, Minz

Director

Serra, Xavier

Saggion, Horacio

Date of defense

2022-07-01

Pages

180 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Doctorate programs

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Abstract

The explosion of digital music has dramatically changed our music consumption behavior. Massive digital music libraries are now available through streaming platforms. Since the amount of information available to an individual listener has increased greatly, it is nearly impossible for them to go through the entire catalog exhaustively. As a result, we need robust knowledge management systems more than ever. Recent advances in deep learning have enabled data-driven music representation learning for classification and retrieval. However, there is still a gap between machinelearned representations and the human understanding of music. This dissertation aims at reducing this semantic gap in order to assist listener’s behavior around music information with advanced algorithmic support. To this end, we tackle three main challenges in representation learning: model architecture design, scalability, and multimodality. Firstly, we carefully review previous deep representation models and propose new architectures that improve the representation in qualitative and quantitative ways. The newly proposed models are more flexible, interpretable, and powerful than previous ones. Secondly, training schemes beyond supervised learning are explored as a way to achieve scalable research. Transfer learning, semi-supervised learning, and self-supervised learning approaches are addressed in detail; transfer learning and semi-supervised methods are applied to enhance music representation learning. Finally, metric learning is proposed as a way to bridge music audio representation and natural language semantics, forming a multi-modal embedding space. This facilitates music retrieval using arbitrary tags beyond a fixed vocabulary, and makes it possible to match music to text stories based on mood. Although our work focuses on bridging music and natural language semantics, we believe the proposed approaches generalize to other modalities. All implementation details of this thesis are available and open-source for reproducibility. The knowledge gained throughout this thesis has been put in practice and grounded in research internships and collaborations with multiple industries.


L’esclat de la música digital ha revolucionat la manera en que consumim música. Les plataformes de música per Internet posen tal quantitat d’informació i continguts a l’abast dels seus usuaris que és pràcticament impossible explorar els seus catàlegs de manera exhaustiva. Per tant, ara més que mai, cal seguir desenvolupant sistemes robustos de gestió del coneixement. Els avenços en aprenentatge profund dels darrers anys han permès el desenvolupament de mètodes per a l’aprenentatge automàtic de representacions musicals, i la seva aplicació en tasques de classificació i cerca. Tanmateix, hi ha encara un buit entre aquestes representacions apreses automàticament i la comprensió humana de la música. L’objectiu d’aquesta tesi és reduir aquest “buit semàntic”, per tal d’oferir ajuda algorísmica als oients a l’hora de relacionar-se amb informació musical. A aquest efecte, abordem tres problemes de l’aprenentatge de representacions: el disseny de l’arquitectura dels models, l’escalabilitat i la multimodalitat. En primer lloc, analitzem en detall models anteriors de representació profunda, i proposem arquitectures noves que milloren les representacions qualitativa i quantitativament, donant lloc a models més potents, flexibles i interpretables. Seguidament, per tal d’assolir millor escalabilitat, investiguem processos d’entrenament més enllà de l’aprenentatge supervisat. Presentem en detall els aprenentatges per transferència, semi-supervisat i auto-supervisat; i apliquem els aprenentatges per transferència i semi-supervisat com a manera de potenciar l’aprenentatge automàtic de representacions musicals. Finalment, proposem l’aprenentatge de mètriques com a manera de reconciliar les representacions d’àudio musical i la semàntica en llenguatge natural, donant lloc a un espai d’encastament multimodal. Això facilita la recuperació de música mitjançant descriptors arbitraris en lloc de vocabularis concrets, i permet assignar música a una història automàticament en base al seu context anímic. Tot i que la nostra recerca se centra en reconciliar la música i la semàntica en llenguatge natural, opinem que el mètode proposat es pot generalitzar a altres modalitats. Tots els detalls de la implementació d’aquesta tesi estan disponibles com a codi obert per tal de permetre la seva reproducció. El coneixement adquirit al llarg d’aquesta tesi ha estat posat en pràctica mitjançant col·laboracions amb la indústria i estades en pràctiques de recerca.

Keywords

Music representation learning; Music classification; Multimodality; Cross-modal retrieval; Aprenentatge automàtic de representacions musicals; Classificació musical; Multimodalitat; Recuperació transmodal

Subjects

62 - Engineering. Technology in general

Documents

tmw.pdf

5.256Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

This item appears in the following Collection(s)