Audio source separation for music in low-latency and high-latency scenarios

dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Marxer Piñón, Ricard
dc.date.accessioned
2013-10-11T10:45:56Z
dc.date.available
2013-10-11T10:45:56Z
dc.date.issued
2013-09-09
dc.identifier.uri
http://hdl.handle.net/10803/123808
dc.description.abstract
Aquesta tesi proposa mètodes per tractar les limitacions de les tècniques existents de separació de fonts musicals en condicions de baixa i alta latència. En primer lloc, ens centrem en els mètodes amb un baix cost computacional i baixa latència. Proposem l'ús de la regularització de Tikhonov com a mètode de descomposició de l'espectre en el context de baixa latència. El comparem amb les tècniques existents en tasques d'estimació i seguiment dels tons, que són passos crucials en molts mètodes de separació. A continuació utilitzem i avaluem el mètode de descomposició de l'espectre en tasques de separació de veu cantada, baix i percussió. En segon lloc, proposem diversos mètodes d'alta latència que milloren la separació de la veu cantada, gràcies al modelatge de components específics, com la respiració i les consonants. Finalment, explorem l'ús de correlacions temporals i anotacions manuals per millorar la separació dels instruments de percussió i dels senyals musicals polifònics complexes.
cat
dc.description.abstract
Esta tesis propone métodos para tratar las limitaciones de las técnicas existentes de separación de fuentes musicales en condiciones de baja y alta latencia. En primer lugar, nos centramos en los métodos con un bajo coste computacional y baja latencia. Proponemos el uso de la regularización de Tikhonov como método de descomposición del espectro en el contexto de baja latencia. Lo comparamos con las técnicas existentes en tareas de estimación y seguimiento de los tonos, que son pasos cruciales en muchos métodos de separación. A continuación utilizamos y evaluamos el método de descomposición del espectro en tareas de separación de voz cantada, bajo y percusión. En segundo lugar, proponemos varios métodos de alta latencia que mejoran la separación de la voz cantada, gracias al modelado de componentes que a menudo no se toman en cuenta, como la respiración y las consonantes. Finalmente, exploramos el uso de correlaciones temporales y anotaciones manuales para mejorar la separación de los instrumentos de percusión y señales musicales polifónicas complejas.
spa
dc.description.abstract
This thesis proposes specific methods to address the limitations of current music source separation methods in low-latency and high-latency scenarios. First, we focus on methods with low computational cost and low latency. We propose the use of Tikhonov regularization as a method for spectrum decomposition in the low-latency context. We compare it to existing techniques in pitch estimation and tracking tasks, crucial steps in many separation methods. We then use the proposed spectrum decomposition method in low-latency separation tasks targeting singing voice, bass and drums. Second, we propose several high-latency methods that improve the separation of singing voice by modeling components that are often not accounted for, such as breathiness and consonants. Finally, we explore using temporal correlations and human annotations to enhance the separation of drums and complex polyphonic music signals.
eng
dc.format.extent
266 p.
cat
dc.format.mimetype
application/pdf
dc.language.iso
eng
cat
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Processament de senyals
cat
dc.subject
Processament d'àudio
cat
dc.subject
Processament d'àudio en temps real
cat
dc.subject
Separació de fonts
cat
dc.subject
Separació cega de fonts
cat
dc.subject
Separació de fonts de música
cat
dc.subject
Factorització no negativa de matrius
cat
dc.subject
Regularització de Tikhonov
cat
dc.subject
Descomposició espectral
cat
dc.subject
Descomposició del senyal
cat
dc.subject
Estimació de to
cat
dc.subject
Seguiment de to
cat
dc.subject
Seguiment de múltiples tons
cat
dc.subject
Reconeixement d'instruments
cat
dc.subject
Modelatge de veu cantada
cat
dc.subject
Modelatge de la percussió
cat
dc.subject
Procesamiento de señales
cat
dc.subject
Procesamiento de audio
cat
dc.subject
Procesamiento de audio en tiempo real
cat
dc.subject
Separación de fuentes
cat
dc.subject
Separación ciega de fuentes
cat
dc.subject
Separación de fuentes de música
cat
dc.subject
Factorización no negativa de matrices
cat
dc.subject
Regularización de Tikhonov
cat
dc.subject
Descomposición espectral
cat
dc.subject
Descomposición de la señal
cat
dc.subject
Estimación de tono
cat
dc.subject
Seguimiento de múltiples tonos
cat
dc.subject
Reconocimiento de instrumentos
cat
dc.subject
Modelado de voz cantada
cat
dc.subject
Modelado de percusión
cat
dc.subject
Signal processing
cat
dc.subject
Audio processing
cat
dc.subject
Real-time audio processing
cat
dc.subject
Source separation
cat
dc.subject
Music source separation
cat
dc.subject
Non-negative matrix factorization
cat
dc.subject
Tikhonov regularization
cat
dc.subject
Spectral decomposition
cat
dc.subject
Signal decomposition
cat
dc.subject
Pitch estimation
cat
dc.subject
Pitch tracking
cat
dc.subject
Multipitch tracking
cat
dc.subject
Instrument recognition
cat
dc.subject
Singing voice modeling
cat
dc.subject
Percussion modeling
cat
dc.title
Audio source separation for music in low-latency and high-latency scenarios
cat
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
62
cat
dc.contributor.authoremail
ricard.marxer@upf.edu
cat
dc.contributor.director
Serra, Xavier
dc.contributor.director
Janer Mestres, Jordi
dc.embargo.terms
cap
cat
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.dl
B. 24808-2013
cat
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions


Documents

trmp.pdf

3.557Mb PDF

This item appears in the following Collection(s)