Contextual speech recognition

llistat de metadades

Director/a

Marqués Acosta, Fernando

Varas González, David

Data de defensa

2025-06-18

Pàgines

101 p.



Departament/Institut

Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions

Programa de doctorat

DOCTORAT EN TEORIA DEL SENYAL I COMUNICACIONS (Pla 2013)

Resum

(English) Although Automatic Speech Recognition (ASR) technology has achieved remarkable improvements in transcription accuracy in recent years, it still struggles to correctly transcribe certain words. In particular, proper nouns often exhibit lower accuracy due to their unique pronunciations and alternative spellings. To address these challenges, contextualisation is commonly integrated into ASR models to improve the transcription of rare proper nouns and disambiguate between similar-sounding proper nouns. This industrial PhD thesis focuses on the development of contextualisation systems for ASR models. The ASR technology employed in this thesis is used to generate automatic transcripts for podcast content. The objective of the contextualisation system is to improve the accuracy of proper nouns; for example, the names of podcast shows, hosts, and guests. The contextualisation system developed in this thesis is composed of two parts. First, an ingestion pipeline gathers proper nouns relevant to the podcast episode to be transcribed. This pipeline has an automated component that extracts proper nouns from the metadata of each podcast episode, such as the title and description, using tools like a named entity recogniser. Additionally, a module that allows the manual addition of proper nouns to specific podcast shows has been developed. The second part, which represents the most relevant contribution of this thesis, is a novel ASR contextualisation algorithm based on deep neural networks. The contextualized ASR model utilises the gathered proper nouns, resulting in an improvement in accuracy when compared to the same model without contextualization capabilities. The accuracy of the ASR system developed in this thesis is evaluated and analysed using episodes from popular public podcast shows. A human evaluation of the word error rate was employed during this assessment. This evaluation compares the quality of the ASR model system's transcripts to those provided publicly by the podcast content creators. The results show that the system developed in this thesis produces transcripts that contain four times fewer errors than the transcripts offered by podcast hosting providers. The contextualization method is also evaluated on a public dataset and compared to state-of-the-art methods. The results show that the contextualization method proposed in this thesis significantly outperforms the existing systems.


(Català) Encara que la tecnologia de Reconeixement Automàtic de Parla (RAP) ha aconseguit millores remarcables en la precisió de la transcripció els darrers anys, encara té dificultats per transcriure correctament certes paraules. En particular, els noms propis sovint presenten una precisió més baixa a causa de les seves pronunciacions úniques i ortografies alternatives. Per adreçar aquests reptes, la contextualització s'integra habitualment en els models RAP per millorar la transcripció de noms propis rars i desambiguar entre noms propis que sonen semblant. Aquesta tesi de doctorat industrial es centra en el desenvolupament de sistemes de contextualització per a models RAP. La tecnologia RAP utilitzada en aquesta tesi s'utilitza per generar transcripcions automàtiques de contingut de podcasts. L'objectiu del sistema de contextualització és millorar la precisió dels noms propis; per exemple, els noms dels programs de podcasts, presentadors i convidats. El sistema de contextualització desenvolupat en aquesta tesi està composta de dues parts. Primer, un procés d'ingestió cerca noms propis rellevants per a l'episodi de podcast que s'ha de transcriure. Aquest procés d'ingestió té un component automatitzat que extreu noms propis de les metadades de cada episodi de podcast, com el títol i la descripció, utilitzant eines com un reconeixedor automàtic d'entitats. A més, s'ha desenvolupat un mòdul que permet afegir manualment noms propis a programes de podcasts concrets. La segona part, que representa la contribució més rellevant d'aquesta tesi, és un nou algoritme de contextualització RAP basat en xarxes neuronals profundes. El model RAP contextualitzat utilitza els noms propis, donant com a resultat una millora de la precisió en comparació amb el mateix model sense capacitats de contextualització. La precisió del sistema RAP desenvolupat en aquesta tesi s'avala i analitza utilitzant episodis de programes de podcasts públics populars. Aquesta avaluació compara la qualitat de les transcripcions del sistema del model RAP amb les que proporcionen públicament els creadors de contingut de podcasts. Els resultats mostren que el sistema desenvolupat en aquesta tesi produeix transcripcions que contenen quatre vegades menys errors que les transcripcions oferides pels proveïdors d'allotjament de podcasts. El mètode de contextualització també s'avala en un conjunt de dades públic i es compara amb els mètodes d'estat de l'art. Els resultats mostren que el mètode de contextualització proposat en aquesta tesi supera significativament els sistemes existents.


(Español) Pese a que la tecnología de Reconocimiento Automático del Habla (RAH) ha logrado mejoras notables en la precisión de la transcripción en los últimos años, todavía tiene dificultades para transcribir correctamente ciertas palabras. En particular, los nombres propios a menudo tienen una menor precisión debido a sus pronunciaciones únicas y que pueden tener múltiples maneras de escribirse. Para abordar estos desafíos, la contextualización se integra comúnmente en los modelos de RAH para mejorar la transcripción de nombres propios raros y desambiguar entre nombres propios con similar pronunciación. Esta tesis se centra en el desarrollo de sistemas de contextualización para modelos de RAH. La tecnología RAH empleada en esta tesis se utiliza para generar transcripciones automáticas de contenido de podcasts. El objetivo del sistema de contextualización es mejorar la precisión de los nombres propios; por ejemplo, los nombres de programas de podcasts, presentadores e invitados. El sistema de contextualización desarrollado en esta tesis se compone de dos partes. Primero, un sistema de ingestión recopila nombres propios relevantes para el episodio de podcast que se va a transcribir. Esta sistema de ingestión tiene un componente automatizado que extrae nombres propios de los metadatos de cada episodio de podcast, como el título y la descripción, utilizando herramientas como un reconocedor de entidades automático. Además, se ha desarrollado un módulo que permite la agregación manual de nombres propios a programas de podcasts específicos. La segunda parte, que representa la contribución más relevante de esta tesis, es un novedoso algoritmo de contextualización de RAH basado en redes neuronales profundas. El modelo de RAH contextualizado utiliza los nombres propios recopilados, lo que resulta en una mejora de la precisión en comparación con el mismo modelo sin capacidades de contextualización. La precisión del sistema RAH desarrollado en esta tesis se evalúa y analiza utilizando episodios de programas de podcasts públicos populares. Durante esta evaluación se empleó un equipo de revisores humanos que calcula los errores de transcripción. Esta evaluación compara la calidad de las transcripciones del sistema del modelo RAH con las proporcionadas públicamente por los proveedores programas de podcasts. Los resultados muestran que el sistema desarrollado en esta tesis produce transcripciones que contienen cuatro veces menos errores que las transcripciones ofrecidas por los proveedores de alojamiento de podcasts. El método de contextualización también se evalúa en un conjunto de datos públicos y se compara con métodos de vanguardia. Los resultados muestran que el método de contextualización propuesto en esta tesis supera significativamente a los sistemas existentes.

Matèries

621.3 - Enginyeria elèctrica. Electrotècnia. Telecomunicacions

Nota

Tesi amb menció de Doctorat Industrial (Generalitat de Catalunya)

Citació recomanada
Aquesta citació s'ha generat automàticament.

Documents

Llistat documents

Aquest document conté fitxers embargats fins el dia 13-03-2026

Drets

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Aquest element apareix en la col·lecció o col·leccions següent(s)