Analyzing singing voice expressivity: Focus on singing voice musical dynamics
dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Narang, Jyoti
dc.date.accessioned
2025-06-20T11:01:16Z
dc.date.available
2025-06-20T11:01:16Z
dc.date.issued
2025-03-24
dc.identifier.uri
http://hdl.handle.net/10803/694703
dc.description.abstract
Musical dynamics, a key expressive dimension of the singing voice, play a vital role in
shaping phrasing and conveying the desired emotional impact. Despite their importance,
their formalization and standardization remain limited. This work addresses these challenges
by proposing methodologies to analyze and interpret dynamics from both audio and
score-performance perspectives. Our approach includes: (1) Comparative Musical Dynamics
Analysis – examining variations between audio performances, (2) Interpreting Musical
Dynamics from Scores – analyzing curated real-world audio performances paired with
scores featuring rich dynamics labels, and (3) Analyzing Listener Agreement on Perceived
Dynamics – investigating the subjectivity of interpretation.
To support these approaches, we curate diverse datasets, including a synthetic dataset for
choral singing, score-performance datasets from performer and listener perspectives, and
karaoke datasets for imitation-based dynamics analysis. Our findings reveal that while
synthetic data enables controlled comparisons, real-world performances exhibit musical
dynamics absent in synthetic renditions. Using Romantic-era Lieder scores, we
semi-automatically curated score-performance pairs through state-of-the-art source
separation and alignment techniques to train a dynamics prediction model. Collaborating
with expert musicians, we annotated scores with synchronized dynamics labels and
examined inter-annotator agreement using computational linguistics methods. Additionally,
we developed a system to identify vocal dynamics automatically, employing structural
segmentation and machine learning models trained on the Western classical Lieder corpus.
A preliminary study on Hindustani music revealed dynamics variations at strong beat
positions.
Our findings emphasize the value of personalized models and highlight the importance of
context-window size in dynamics prediction tasks.
ca
dc.description.abstract
Las dinámicas musicales, una dimensión expresiva clave de la voz cantada, desempeñan
un papel fundamental en la configuración del fraseo y en la transmisión del impacto
emocional deseado. A pesar de su importancia, su formalización y estandarización siguen
siendo limitadas. Este trabajo aborda estos desafíos proponiendo metodologías para
analizar e interpretar las dinámicas tanto desde perspectivas de audio como de
interpretación de partituras. Nuestro enfoque incluye: (1) Análisis Comparativo de las
Dinámicas Musicales – examinando las variaciones entre diferentes interpretaciones de
audio, (2) Interpretación de las Dinámicas Musicales a partir de Partituras – analizando
interpretaciones de audio emparejadas con partituras que incluyen etiquetas detalladas de
dinámicas, y (3) Análisis del Acuerdo entre Oyentes sobre las Dinámicas Percibidas –
investigando la subjetividad en la interpretación.
Para respaldar estos enfoques, curamos diversos conjuntos de datos, incluyendo un
conjunto sintético para canto coral, conjuntos de datos de interpretación de partituras desde
las perspectivas del intérprete y del oyente, y conjuntos de datos de karaoke para el análisis
de dinámicas basado en imitación. Nuestros hallazgos revelan que, si bien los datos
sintéticos permiten comparaciones controladas, las interpretaciones reales presentan
dinámicas musicales ausentes en las versiones sintéticas. Usando partituras de Lieder del
período romántico, curamos pares de interpretación-partitura de manera semiautomática
mediante técnicas avanzadas de separación y alineación de fuentes para entrenar un
modelo de predicción de dinámicas. En colaboración con músicos expertos, anotamos
partituras con etiquetas de dinámicas sincronizadas y analizamos el acuerdo entre
anotadores utilizando métodos de lingüística computacional. Además, desarrollamos un
sistema para identificar dinámicas vocales automáticamente, empleando segmentación
estructural y modelos de aprendizaje automático entrenados con el corpus de Lieder de
música clásica occidental. Un estudio preliminar sobre música hindustani reveló variaciones
de dinámicas en posiciones de tiempos fuertes.
Nuestros hallazgos enfatizan el valor de modelos personalizados y destacan la importancia
del tamaño de la ventana de contexto en las tareas de predicción de dinámicas.
ca
dc.format.extent
152 p.
ca
dc.language.iso
eng
ca
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Singing voice
ca
dc.subject
Voz cantada
ca
dc.title
Analyzing singing voice expressivity: Focus on singing voice musical dynamics
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
62
ca
dc.contributor.authoremail
jyoti.narang@upf.edu
ca
dc.contributor.director
Serra, Xavier
dc.embargo.terms
cap
ca
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de Doctorat en Tecnologies de la Informació i les Comunicacions
ca