Reliable training scenarios for dealing with minimal parallel-resource language pairs in statistical machine translation

Author

Ahmadniaye Bosari, Benyamin

Director

Serrano García, Javier

Date of defense

2017-12-22

ISBN

9788449078323

Pages

158 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament de Telecomunicació i Enginyeria de Sistemes

Abstract

La tesis trata sobre sistemas de traducción automática estadística (SMT) de alta calidad, para trabajar con pares de lenguajes con recursos paralelos mínimos, titulado “Reliable Training Scenarios for Dealing with Minimal Parallel-Resource Language Pairs in Statistical Machine Translation”. El desafío principal que abordamos en nuestro enfoque es la carencia de datos paralelos y este se enfrenta en diferentes escenarios. SMT es uno de los enfoques preferidos para traducción automática (MT), y se podrían detectar varias mejoras en este enfoque, específicamente en la calidad de salida en una serie de sistemas para pares de idiomas, desde los avances en potencia computacional, junto con la exploración llevada a cabo de nuevos métodos y algoritmos. Cuando reflexionamos sobre el desarrollo de sistemas SMT para muchos idiomas pares, el principal cuello de botella que encontraremos es la falta de datos paralelos de entrenamiento. Debido al hecho de que se requiere mucho tiempo y esfuerzo para crear estos corpus, están disponibles en cantidad, género e idioma limitados. Los modelos de SMT aprenden cómo podrían hacer la traducción a través del proceso de examen de un corpus paralelo bilingüe que contenga las oraciones alineadas con sus traducciones producidas por humanos. Sin embargo, la calidad de salida de los sistemas de SMT es depende de la disponibilidad de cantidades masivas de texto paralelo dentro de los idiomas de origen y destino. Por lo tanto, los recursos paralelos juegan un papel importante en la mejora de la calidad de los sistemas de SMT. Definimos la mínima configuración de los recursos paralelos de SMT que poseen solo pequeñas cantidades de datos paralelos, que también se puede apreciar en varios pares de idiomas. El rendimiento logrado por el mínimo recurso paralelo en SMT en el estado del arte es altamente apreciable, pero generalmente usan el texto monolingüe y no abordan fundamentalmente la escasez de entrenamiento de textos paralelos. Cuando creamos la ampliación en los datos de entrenamiento paralelos, sin proporcionar ningún tipo de garantía sobre la calidad de los pares de oraciones bilingües que se han generado recientemente, también aumentan las preocupaciones. Las limitaciones que surgen durante el entrenamiento de la SMT de recursos paralelos mínimos demuestran que los sistemas actuales son incapaces de producir resultados de traducción de alta calidad. En esta tesis, hemos propuesto dos escenarios, uno de “direct-bridge combination” y otro escenario de “round-trip training”. El primero se basa en la técnica de “bridge language”, mientras que el segundo se basa en el enfoque de “retraining”, para tratar con SMT de recursos paralelos mínimos. Nuestro objetivo principal para presentar el escenario de “direct-bridge combination” es que podamos acercarlo al rendimiento existente en el estado del arte. Este escenario se ha propuesto para maximizar la ganancia de información, eligiendo las partes apropiadas del sistema de traducción basado en “bridge” que no interfieran con el sistema de traducción directa en el que se confía más. Además, el escenario de “round trip training” ha sido propuesto para aprovechar la fácil disponibilidad del par de frases bilingües generadas para construir un sistema de SMT de alta calidad en un comportamiento iterativo, seleccionando el subconjunto de alta calidad de los pares de oraciones generados en el lado del objetivo, preparando sus oraciones adecuadas correspondientes de origen y juntándolas con los pares de oraciones originales para re-entrenar el sistema de SMT. Los métodos propuestos se evalúan intrínsecamente, y su comparación se realiza en base a los sistemas de traducción de referencia. También hemos llevado a cabo los experimentos en los escenarios propuestos antes mencionados con datos bilingües iniciales mínimos. Hemos demostrado la mejora en el rendimiento a través del uso de los métodos propuestos al construir sistemas de SMT de alta calidad sobre la línea de base que involucra a cada escenario.


The thesis is about the topic of high-quality Statistical Machine Translation (SMT) systems for working with minimal parallel-resource language pairs entitled “Reliable Training Scenarios for Dealing with Minimal Parallel-Resource Language Pairs in Statistical Machine Translation”. Then main challenge we targeted in our approaches is parallel data scarcity, and this challenge is faced in different solution scenarios. SMT is one of the preferred approaches to Machine Translation (MT), and various improvements could be detected in this approach, specifically in the output quality in a number of systems for language pairs since the advances in computational power, together with the exploration of new methods and algorithms have been made. When we ponder over the development of SMT systems for many language pairs, the major bottleneck that we will find is the lack of training parallel data. Due to the fact that lots of time and effort is required to create these corpora, they are available in limited quantity, genre, and language. SMT models learn that how they could do translation through the process of examining a bilingual parallel corpus that contains the sentences aligned with their human-produced translations. However, the output quality of SMT systems is heavily dependent on the availability of massive amounts of parallel text within the source and target languages. Hence, an important role is played by the parallel resources so that the quality of SMT systems could be improved. We define minimal parallel-resource SMT settings possess only small amounts of parallel data, which can also be seen in various pairs of languages. The performance achieved by current state-of-the-art minimal parallel-resource SMT is highly appreciable, but they usually use the monolingual text and do not fundamentally address the shortage of parallel training text. Creating enlargement in the parallel training data without providing any sort of guarantee on the quality of the bilingual sentence pairs that have been newly generated, is also raising concerns. The limitations that emerge during the training of the minimal parallel- resource SMT prove that the current systems are incapable of producing the high- quality translation output. In this thesis, we have proposed the “direct-bridge combination” scenario as well as the “round-trip training” scenario, that the former is based on bridge language technique while the latter one is based on retraining approach, for dealing with minimal parallel-resource SMT systems. Our main aim for putting forward the direct-bridge combination scenario is that we might bring it closer to state-of-the-art performance. This scenario has been proposed to maximize the information gain by choosing the appropriate portions of the bridge-based translation system that do not interfere with the direct translation system which is trusted more. Furthermore, the round-trip training scenario has been proposed to take advantage of the readily available generated bilingual sentence pairs to build high-quality SMT system in an iterative behavior; by selecting high- quality subset of generated sentence pairs in target side, preparing their suitable correspond source sentences, and using them together with the original sentence pairs to retrain the SMT system. The proposed methods are intrinsically evaluated, and their comparison is made against the baseline translation systems. We have also conducted the experiments in the aforementioned proposed scenarios with minimal initial bilingual data. We have demonstrated improvement made in the performance through the use of proposed methods while building high-quality SMT systems over the baseline involving each scenario.

Keywords

Traducció automàtica estadística; Traducción automática estadística; Statistical machine translation; Pares linguades con recursos paral·leles mínimes; Pares lenguajes con recursos paralelos mínimos; Minimal parallel resources language pairs; Traduccions de alta qualitat; Traducciones de alta calidad; High quality translations

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Tecnologies

Documents

bab1de1.pdf

1.147Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)