Cross-lingual sentiment analysis for under-resourced languages

Barnes, Jeremy

Cross-lingual sentiment analysis for under-resourced languages

dc.contributor

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

dc.contributor.author

Barnes, Jeremy

dc.date.accessioned

2019-02-06T12:18:17Z

dc.date.available

2019-02-06T12:18:17Z

dc.date.issued

2019-01-28

dc.identifier.uri

http://hdl.handle.net/10803/665480

dc.description.abstract

Sentiment Analysis is a task that aims to calculate the polarity of text automatically. While some languages, such as English, have a vast array of resources to enable sentiment analysis, most under-resourced languages lack them. Cross-lingual Sentiment Analysis (CLSA) attempts to make use of resource-rich languages in order to create or improve sentiment analysis systems in an under-resourced language. In this thesis, we propose cross-lingual sentiment approaches that have minimal parallel data requirements, while making the best use of available monolingual data. We propose a model to incorporate sentiment information into bilingual distributional representations, by jointly optimizing them for semantics and sentiment, showing state-of-the-art performance when combined with machine translation. We then move these approaches to aspect-level and subsequently test them on a variety of language families and domains. Finally, we show that this approach can also be suitable for domain adaptation.

en_US

dc.description.abstract

L’anàlisi de sentiment és una tasca que ens permet calcular la polaritat de un text de manera automàtica. Mentre algunes llengües, com l’anglès per exemple, tenen una àmplia varietat de recursos per crear sistemes d’anàlisi de sentiment, n’hi ha més que els troben a faltar. L’Anàlisi de Sentiment Cross-lingüe (ASCL) intenta fer servir els recursos de llengües riques en recursos per crear o millorar sistemes d’anàlisi de sentiment en llengües pobres en recursos. A aquesta tesi proposem mètodes d’anàlisi de sentiment cross-lingües que requereixen menys data paral·lela i treuen el màxim proﬁt de data monolingüe que tenim a l’abast. Proposem un model que optimitza les representacions distribucionals cross-lingües perquè tinguin informació semàntica i també de sentiment, i que demostra ser l’estat de l’art en combinant-se amb traducció automàtica. Després passem a un nivell de granularitat més ﬁna i examinem com canvia el rendiment dels models amb diferents llengües metes i dominis. Finalment, demostrem que aquestes tècniques també són adequats per a l’adaptació de domini.

en_US

dc.format.extent

156 p.

en_US

dc.format.mimetype

application/pdf

dc.language.iso

eng

en_US

dc.publisher

Universitat Pompeu Fabra

dc.rights.license

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

dc.rights.uri

http://creativecommons.org/licenses/by-sa/4.0/

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Sentiment analysis

en_US

dc.subject

Aspect-level

en_US

dc.subject

Targeted

en_US

dc.subject

Cross-lingual

en_US

dc.subject

Under-resourced

en_US

dc.subject

Anàlisi de sentiment

en_US

dc.subject

Basada en aspectes

en_US

dc.subject

Cross-lingüe

en_US

dc.subject

Llengües amb pocs recursos

en_US

dc.subject

Análisis de sentimiento

en_US

dc.subject

Basada en aspectos

en_US

dc.subject

Lenguas con pocos recursos

en_US

dc.title

Cross-lingual sentiment analysis for under-resourced languages

en_US

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

en_US

dc.contributor.director

Lambert, Patrik

dc.contributor.director

Badia i Cardús, Antoni

dc.embargo.terms

cap

en_US

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.description.degree

Programa de doctorat en Traducció i Ciències del Llenguatge

Documents

tjb.pdf

2.901Mb PDF

This item appears in the following Collection(s)

Programa de Doctorat en Traducció i Ciències del Llenguatge [319]

Àrea de contingut