Phrase table expansion for statistical machine translation with reduced parallel corpora: the Chinese-Spanish case

Han, Jingyi

Phrase table expansion for statistical machine translation with reduced parallel corpora: the Chinese-Spanish case

dc.contributor

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

dc.contributor.author

Han, Jingyi

dc.date.accessioned

2017-12-21T11:43:47Z

dc.date.available

2017-12-21T11:43:47Z

dc.date.issued

2017-12-13

dc.identifier.uri

http://hdl.handle.net/10803/458530

dc.description.abstract

Parallel data scarcity problem is a major challenge faced by Statistical Machine Translation (SMT). The aim of this thesis is to enrich a SMT system by adding more morphological variants and new translation lexicon automatically generated out of monolingual data. To induce bilingual lexicon, instead of taking advantages of comparable corpora or parallel data, we proposed a supervised classifier trained using monolingual features (e.g. word embedding vectors, plus Brown clustering or word frequency information) of only a small amount of translation equivalent word pairs. The classifier is able to predict whether a new word pair is under a translation relation or not. Our experiments of SMT phrase table expansion were conducted on Chinese and Spanish, since we realised that although they are two of the most widely spoken languages of the world, this language pair is suffering from a data scarcity situation. In addition to the problems caused by the words that are not included in the training corpus, the inflection differences between this language pair make the translation even more challenging when only limited parallel data are available. The obtained results demonstrate that, on the one hand, with the method of morphology expansion, the SMT system achieves an improvement of up to + 0.61 BLEU compared to the results of a low resource Chinese-Spanish phrase-based SMT baseline. On the other hand, our supervised classifier reaches a 0.94 F1-score and the SMT experiment results show an improvement of up to +0.70 BLEU with the resulting bilingual lexicon, demonstrating that the errors of the classifier are ultimately controlled by the SMT system.

en_US

dc.description.abstract

La escasez de datos paralelos es un problema importante para la Traducción Automática Estadística (TAE). El objetivo de esta tesis es enriquecer un sistema de TAE añadiendo más variantes morfológicas y un nuevo léxico de traducción generado automáticamente desde datos monolingües. Para inducir el léxico bilingüe, en lugar de depender de corpus comparables o de datos paralelos, proponemos un clasificador supervisado entrenado con representaciones monolingües (por ejemplo, vectores distribuidos, agrupaciones de Brown e información de la frecuencia de palabras) de sólo una pequeña cantidad de traducciones. El clasificador es capaz de predecir si un nuevo par de palabras es una traducción la una de la otra, o no. Realizamos los experimentos para enriquecer el sistema de TAE con chino y español, porque a pesar de que estas lenguas son dos de las más habladas del mundo, este par de idiomas sufre de escasez de datos paralelos. Además de los problemas causados por las palabras que no están incluidas en el corpus de entrenamiento, las diferencias de flexión morfológica entre este par de idiomas hace que la traducción sea de peor calidad cuando se dispone de pocos recursos paralelos. Los resultados obtenidos demuestran que, por un lado, con el método de expansión morfológica, el sistema de TAE logra una mejora de hasta + 0,61 BLEU en comparación con los resultados obtenidos con un sistema básico chino-español con poco corpus. Por otro lado, nuestro clasificador supervisado, que alcanza una F1 de 0,94, proporciona nuevos pares de traducción que resultan en una mejora de hasta +0,70 BLEU con respecto al sistema básico, demostrando que los errores del clasificador son, en último término, controlados por el sistema de TAE.

en_US

dc.format.extent

192 p.

en_US

dc.format.mimetype

application/pdf

dc.language.iso

eng

en_US

dc.publisher

Universitat Pompeu Fabra

dc.rights.license

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Statistical Machine translation

en_US

dc.subject

Phrase table expansion

en_US

dc.subject

Bilingual lexicon induction

en_US

dc.subject

Natural language processing

en_US

dc.subject

Machine learning

en_US

dc.subject

Traducción automática

en_US

dc.subject

Expansión de vocabulario

en_US

dc.subject

Inducción de léxicos bilingües

en_US

dc.subject

Procesamiento del lenguaje natural

en_US

dc.subject

Aprendizaje automático

en_US

dc.title

Phrase table expansion for statistical machine translation with reduced parallel corpora: the Chinese-Spanish case

en_US

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

en_US

dc.contributor.authoremail

jingyi.han@upf.edu

en_US

dc.contributor.director

Bel Rafecas, Núria

dc.embargo.terms

cap

en_US

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.description.degree

Programa de doctorat en Traducció i Ciències del Llenguatge

Documents

tjh.pdf

2.171Mb PDF

This item appears in the following Collection(s)

Programa de Doctorat en Traducció i Ciències del Llenguatge [292]