Melody extraction from polyphonic music signals

dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Salamon, Justin J.
dc.date.accessioned
2013-10-10T12:11:05Z
dc.date.available
2013-10-10T12:11:05Z
dc.date.issued
2013-09-20
dc.identifier.uri
http://hdl.handle.net/10803/123777
dc.description.abstract
Music was the first mass-market industry to be completely restructured by digital technology, and today we can have access to thousands of tracks stored locally on our smartphone and millions of tracks through cloud-based music services. Given the vast quantity of music at our fingertips, we now require novel ways of describing, indexing, searching and interacting with musical content. In this thesis we focus on a technology that opens the door to a wide range of such applications: automatically estimating the pitch sequence of the melody directly from the audio signal of a polyphonic music recording, also referred to as melody extraction. Whilst identifying the pitch of the melody is something human listeners can do quite well, doing this automatically is highly challenging. We present a novel method for melody extraction based on the tracking and characterisation of the pitch contours that form the melodic line of a piece. We show how different contour characteristics can be exploited in combination with auditory streaming cues to identify the melody out of all the pitch content in a music recording using both heuristic and model-based approaches. The performance of our method is assessed in an international evaluation campaign where it is shown to obtain state-of-the-art results. In fact, it achieves the highest mean overall accuracy obtained by any algorithm that has participated in the campaign to date. We demonstrate the applicability of our method both for research and end-user applications by developing systems that exploit the extracted melody pitch sequence for similarity-based music retrieval (version identification and query-by-humming), genre classification, automatic transcription and computational music analysis. The thesis also provides a comprehensive comparative analysis and review of the current state-of-the-art in melody extraction and a first of its kind analysis of melody extraction evaluation methodology.
eng
dc.description.abstract
La industria de la música fue una de las primeras en verse completamente reestructurada por los avances de la tecnología digital, y hoy en día tenemos acceso a miles de canciones almacenadas en nuestros dispositivos móviles y a millones más a través de servicios en la nube. Dada esta inmensa cantidad de música al nuestro alcance, necesitamos nuevas maneras de describir, indexar, buscar e interactuar con el contenido musical. Esta tesis se centra en una tecnología que abre las puertas a nuevas aplicaciones en este área: la extracción automática de la melodía a partir de una grabación musical polifónica. Mientras que identificar la melodía de una pieza es algo que los humanos pueden hacer relativamente bien, hacerlo de forma automática presenta mucha complejidad, ya que requiere combinar conocimiento de procesado de señal, acústica, aprendizaje automático y percepción sonora. Esta tarea se conoce en el ámbito de investigación como “extracción de melodía”, y consiste técnicamente en estimar la secuencia de alturas correspondiente a la melodía predominante de una pieza musical a partir del análisis de la señal de audio. Esta tesis presenta un método innovador para la extracción de la melodía basado en el seguimiento y caracterización de contornos tonales. En la tesis, mostramos cómo se pueden explotar las características de contornos en combinación con reglas basadas en la percepción auditiva, para identificar la melodía a partir de todo el contenido tonal de una grabación, tanto de manera heurística como a través de modelos aprendidos automáticamente. A través de una iniciativa internacional de evaluación comparativa de algoritmos, comprobamos además que el método propuesto obtiene resultados punteros. De hecho, logra la precisión más alta de todos los algoritmos que han participado en la iniciativa hasta la fecha. Además, la tesis demuestra la utilidad de nuestro método en diversas aplicaciones tanto de investigación como para usuarios finales, desarrollando una serie de sistemas que aprovechan la melodía extraída para la búsqueda de música por semejanza (identificación de versiones y búsqueda por tarareo), la clasificación del estilo musical, la transcripción o conversión de audio a partitura, y el análisis musical con métodos computacionales. La tesis también incluye un amplio análisis comparativo del estado de la cuestión en extracción de melodía y el primer análisis crítico existente de la metodología de evaluación de algoritmos de este tipo
spa
dc.description.abstract
La indústria musical va ser una de les primeres a veure's completament reestructurada pels avenços de la tecnologia digital, i avui en dia tenim accés a milers de cançons emmagatzemades als nostres dispositius mòbils i a milions més a través de serveis en xarxa. Al tenir aquesta immensa quantitat de música al nostre abast, necessitem noves maneres de descriure, indexar, buscar i interactuar amb el contingut musical. Aquesta tesi es centra en una tecnologia que obre les portes a noves aplicacions en aquesta àrea: l'extracció automàtica de la melodia a partir d'una gravació musical polifònica. Tot i que identificar la melodia d'una peça és quelcom que els humans podem fer relativament fàcilment, fer-ho de forma automàtica presenta una alta complexitat, ja que requereix combinar coneixement de processament del senyal, acústica, aprenentatge automàtic i percepció sonora. Aquesta tasca es coneix dins de l'àmbit d'investigació com a “extracció de melodia”, i consisteix tècnicament a estimar la seqüència de altures tonals corresponents a la melodia predominant d'una peça musical a partir de l'anàlisi del senyal d'àudio. Aquesta tesi presenta un mètode innovador per a l'extracció de la melodia basat en el seguiment i caracterització de contorns tonals. Per a fer-ho, mostrem com es poden explotar les característiques de contorns combinades amb regles basades en la percepció auditiva per a identificar la melodia a partir de tot el contingut tonal d'una gravació, tant de manera heurística com a través de models apresos automàticament. A més d'això, comprovem a través d'una iniciativa internacional d'avaluació comparativa d'algoritmes que el mètode proposat obté resultats punters. De fet, obté la precisió més alta de tots els algoritmes proposats fins la data d'avui. A demés, la tesi demostra la utilitat del mètode en diverses aplicacions tant d'investigació com per a usuaris finals, desenvolupant una sèrie de sistemes que aprofiten la melodia extreta per a la cerca de música per semblança (identificació de versions i cerca per taral•larà), la classificació de l'estil musical, la transcripció o conversió d'àudio a partitura, i l'anàlisi musical amb mètodes computacionals. La tesi també inclou una àmplia anàlisi comparativa de l'estat de l'art en extracció de melodia i la primera anàlisi crítica existent de la metodologia d'avaluació d'algoritmes d'aquesta mena.
cat
dc.format.extent
253 p.
dc.format.mimetype
application/pdf
dc.language.iso
eng
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Melody extraction
dc.subject
Predominant melody estimation
dc.subject
Fundamental frequency
dc.subject
Music information retrieval
dc.subject
Audio content processing
dc.subject
Pitch
dc.subject
Contour
dc.subject
Polyphonic
dc.subject
Music similarity
dc.subject
Version identification
dc.subject
Query by humming
dc.subject
Melody
dc.subject
Bass line
dc.subject
Harmony
dc.subject
Genre classification
dc.subject
Tonic identification
dc.subject
Indian classical music
dc.subject
Flamenco
dc.subject
Automatic music transcription
dc.subject
Melodic transcription
dc.subject
Evaluation methodology
dc.subject
Auditory scene analysis
dc.subject
Melodic contour
dc.subject
Music signal processing
dc.subject
Extracción de melodía
dc.subject
Estimación de la melodía predominante
dc.subject
Frecuencia fundamental
dc.subject
Recuperación de la información musical
dc.subject
Procesado de contenido de audio
dc.subject
Contorno tonal
dc.subject
Polifonía
dc.subject
Semejanza musical
dc.subject
Identificación de versiones
dc.subject
Búsqueda por tarareo
dc.subject
Melodía
dc.subject
Línea de bajo
dc.subject
Clasificación del estilo musical
dc.subject
Identificación de la tónica
dc.subject
Música clásica india
dc.subject
Flamenco
dc.subject
Transcripción automática
dc.subject
Transcripción melódica
dc.subject
Metodología de evaluación
dc.subject
Análisis de la escena auditiva
dc.subject
Contorno melódico
dc.subject
Procesado de señales musicales
dc.subject
Extracció de melodia
dc.subject
Estimació de la melodia predominant
dc.subject
Freqüència fonamental
dc.subject
Recuperació de la informació musical
dc.subject
Processament de contingut d'àudio
dc.subject
Contorn tonal
dc.subject
Polifonia
dc.subject
Semblança musical
dc.subject
Identificació de versions
dc.subject
Recerca per tarareo
dc.subject
Línia de baix
dc.subject
Harmonia
dc.subject
Classificació de l'estil musical
dc.subject
identificació de la tònica
dc.subject
Flamenc
dc.subject
Transcripció automàtica
dc.subject
Transcripció melòdica
dc.subject
Metodologia d'avaluació
dc.subject
Anàlisi de l'escena auditiva
dc.subject
Contorn melòdic
dc.subject
Processament de senyals musicals
dc.title
Melody extraction from polyphonic music signals
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
78
cat
dc.contributor.authoremail
justin.salamon@upf.edu
dc.contributor.director
Gómez Gutiérrez, Emilia
dc.contributor.director
Serra, Xavier
dc.embargo.terms
cap
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.dl
B. 24731-2013
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions


Documents

tjs.pdf

8.258Mb PDF

This item appears in the following Collection(s)