Desenvolupament d'un sistema de traducció automàtica estadística cap a la llengua de signes catalana : el paper dels morfemes lligats i altres fenòmens simultanis de la llengua de signes

Author

Massó Sanabre, Guillem

Director

Badia i Cardús, Antoni

Date of defense

2012-09-18

Legal Deposit

B. 1374-2013

Pages

239 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

Doctorate programs

Programa de doctorat en Traducció i Ciències del Llenguatge

Abstract

L’objectiu d’aquesta tesi és doble: d’una banda, millorar un sistema de traducció automàtica estadística mitjançant la incorporació d’informació lingüística, i de l’altra, ampliar la descripció d’alguns trets de la llengua de signes catalana (LSC). La descripció ha anat associada al procés d’anotació del corpus, i han pres especial rellevància els adverbis bucals, dels quals no hem trobat cap classificació que s’adeqüés a les nostres dades. Els experiments portats a terme tenen en compte aquests adverbis, però també morfemes manuals i marques de tòpic en LSC. Els textos en català inclouen informació de lema i categoria gramatical. A més, considerem la puntuació ortogràfica en totes dues llengües. L’avaluació dels resultats, complementada per una anàlisi estadística, mostra que la informació de l’LSC i la puntuació milloren significativament la traducció, mentre que els factors del català no semblen rellevants.


The aim of this thesis is twofold: on the one hand, to improve a statistical machine translation system by incorporating linguistic information, and on the other hand, to extend the description of some features of Catalan Sign Language (LSC). The description has been associated with the corpus annotation process, where mouth adverbs have taken special relevance, since we did not found any classification that matches our data. The experiments carried out take into account these adverbs, but also manual morphemes and topic markers in LSC. The Catalan texts include lemma and part of speech information. Furthermore, we consider orthographic punctuation in both languages. The evaluation of results, complemented by a statistical analysis, shows that the information in LSC and punctuation significantly improve the translation, while the Catalan factors do not seem relevant.

Keywords

Llenguatge de signes català; Traducció automàtica

Subjects

81 - Linguistics and languages

Documents

tgms.pdf

4.644Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)