Audio source separation for music in low-latency and high-latency scenarios

Marxer Piñón, Ricard

Audio source separation for music in low-latency and high-latency scenarios

dc.contributor

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

dc.contributor.author

Marxer Piñón, Ricard

dc.date.accessioned

2013-10-11T10:45:56Z

dc.date.available

2013-10-11T10:45:56Z

dc.date.issued

2013-09-09

dc.identifier.uri

http://hdl.handle.net/10803/123808

dc.description.abstract

Aquesta tesi proposa mètodes per tractar les limitacions de les tècniques existents de separació de fonts musicals en condicions de baixa i alta latència. En primer lloc, ens centrem en els mètodes amb un baix cost computacional i baixa latència. Proposem l'ús de la regularització de Tikhonov com a mètode de descomposició de l'espectre en el context de baixa latència. El comparem amb les tècniques existents en tasques d'estimació i seguiment dels tons, que són passos crucials en molts mètodes de separació. A continuació utilitzem i avaluem el mètode de descomposició de l'espectre en tasques de separació de veu cantada, baix i percussió. En segon lloc, proposem diversos mètodes d'alta latència que milloren la separació de la veu cantada, gràcies al modelatge de components específics, com la respiració i les consonants. Finalment, explorem l'ús de correlacions temporals i anotacions manuals per millorar la separació dels instruments de percussió i dels senyals musicals polifònics complexes.

cat

dc.description.abstract

Esta tesis propone métodos para tratar las limitaciones de las técnicas existentes de separación de fuentes musicales en condiciones de baja y alta latencia. En primer lugar, nos centramos en los métodos con un bajo coste computacional y baja latencia. Proponemos el uso de la regularización de Tikhonov como método de descomposición del espectro en el contexto de baja latencia. Lo comparamos con las técnicas existentes en tareas de estimación y seguimiento de los tonos, que son pasos cruciales en muchos métodos de separación. A continuación utilizamos y evaluamos el método de descomposición del espectro en tareas de separación de voz cantada, bajo y percusión. En segundo lugar, proponemos varios métodos de alta latencia que mejoran la separación de la voz cantada, gracias al modelado de componentes que a menudo no se toman en cuenta, como la respiración y las consonantes. Finalmente, exploramos el uso de correlaciones temporales y anotaciones manuales para mejorar la separación de los instrumentos de percusión y señales musicales polifónicas complejas.

spa

dc.description.abstract

This thesis proposes specific methods to address the limitations of current music source separation methods in low-latency and high-latency scenarios. First, we focus on methods with low computational cost and low latency. We propose the use of Tikhonov regularization as a method for spectrum decomposition in the low-latency context. We compare it to existing techniques in pitch estimation and tracking tasks, crucial steps in many separation methods. We then use the proposed spectrum decomposition method in low-latency separation tasks targeting singing voice, bass and drums. Second, we propose several high-latency methods that improve the separation of singing voice by modeling components that are often not accounted for, such as breathiness and consonants. Finally, we explore using temporal correlations and human annotations to enhance the separation of drums and complex polyphonic music signals.

eng

dc.format.extent

266 p.

cat

dc.format.mimetype

application/pdf

dc.language.iso

eng

cat

dc.publisher

Universitat Pompeu Fabra

dc.rights.license

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Processament de senyals

cat

dc.subject

Processament d'àudio

cat

dc.subject

Processament d'àudio en temps real

cat

dc.subject

Separació de fonts

cat

dc.subject

Separació cega de fonts

cat

dc.subject

Separació de fonts de música

cat

dc.subject

Factorització no negativa de matrius

cat

dc.subject

Regularització de Tikhonov

cat

dc.subject

Descomposició espectral

cat

dc.subject

Descomposició del senyal

cat

dc.subject

Estimació de to

cat

dc.subject

Seguiment de to

cat

dc.subject

Seguiment de múltiples tons

cat

dc.subject

Reconeixement d'instruments

cat

dc.subject

Modelatge de veu cantada

cat

dc.subject

Modelatge de la percussió

cat

dc.subject

Procesamiento de señales

cat

dc.subject

Procesamiento de audio

cat

dc.subject

Procesamiento de audio en tiempo real

cat

dc.subject

Separación de fuentes

cat

dc.subject

Separación ciega de fuentes

cat

dc.subject

Separación de fuentes de música

cat

dc.subject

Factorización no negativa de matrices

cat

dc.subject

Regularización de Tikhonov

cat

dc.subject

Descomposición espectral

cat

dc.subject

Descomposición de la señal

cat

dc.subject

Estimación de tono

cat

dc.subject

Seguimiento de múltiples tonos

cat

dc.subject

Reconocimiento de instrumentos

cat

dc.subject

Modelado de voz cantada

cat

dc.subject

Modelado de percusión

cat

dc.subject

Signal processing

cat

dc.subject

Audio processing

cat

dc.subject

Real-time audio processing

cat

dc.subject

Source separation

cat

dc.subject

Music source separation

cat

dc.subject

Non-negative matrix factorization

cat

dc.subject

Tikhonov regularization

cat

dc.subject

Spectral decomposition

cat

dc.subject

Signal decomposition

cat

dc.subject

Pitch estimation

cat

dc.subject

Pitch tracking

cat

dc.subject

Multipitch tracking

cat

dc.subject

Instrument recognition

cat

dc.subject

Singing voice modeling

cat

dc.subject

Percussion modeling

cat

dc.title

Audio source separation for music in low-latency and high-latency scenarios

cat

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

cat

dc.contributor.authoremail

ricard.marxer@upf.edu

cat

dc.contributor.director

Serra, Xavier

dc.contributor.director

Janer Mestres, Jordi

dc.embargo.terms

cap

cat

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.identifier.dl

B. 24808-2013

cat

dc.description.degree

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Documents

trmp.pdf

3.557Mb PDF

This item appears in the following Collection(s)

Programa de Doctorat en Tecnologies de la Informació i les Comunicacions [376]