La factualidad en las oraciones adversativas, concesivas y condicionales en español: El papel de los tiempos verbales en la anotación automática de corpus

Author

Barrios Vicente, Leyre

Director

Vázquez García, Glòria

Date of defense

2022-03-01

Pages

400 p.Department/Institute

Universitat de Lleida. Departament d'Anglès i Lingüística

Abstract

En els últims anys, la representació i l'anàlisi de la factualitat dels esdeveniments esmentats en un text ha experimentat un creixent interès en l'àmbit de la lingüística de corpus i en el processament del llenguatge natural. En aquest àmbit, el projecte FactBank per a l'anglès (Saurí i Pustejovsky, 2009) és un clar referent, per la qual cosa és a la base de la majoria dels treballs posteriors. La recerca desenvolupada en aquesta tesi pretén contribuir al panorama de l'anotació de la factualitat per a l'espanyol, llengua en la qual s'ha treballat molt poc en aquest camp. L'objectiu és estudiar la factualitat de les oracions adversatives, concessives i condicionals de l'espanyol i formalitzar regles que permetin determinar els valors factuals per a ser implementades en un anotador automàtic basat en coneixement lingüístic. En aquest sentit cal remarcar que el nostre treball s'emmarca dins del projecte TAGFACT (2018), la fi del qual és crear una eina automàtica d'anotació de la factualitat a partir de l'anàlisi de textos periodístics en espanyol. Cal esmentar també que, seguint la tendència en l'anotació de la factualitat, l’entenem com el compromís, per part del parlant, respecte a la veracitat d'una situació. A l'hora d’especificar aquest compromís, ens hem basat en l'anàlisi dels valors expressats pels temps verbals en si mateixos i en els connectors. Segons la bibliografia sobre el tema, els valors factuals dels temps verbals són, en general, bastants estables, o bé perquè alguns s'associen a un únic valor o bé perquè uns altres poden associar-se a més d'un valor, però pot establir-se el més freqüent. Cenyint-nos a les oracions objecte d'estudi, els resultats obtinguts en aquesta recerca ens indiquen que, sobretot en les oracions subordinades (pròtasis), alguns temps varien el valor per defecte, per la qual cosa, en aquests casos, és crucial el paper dels connectors. En aquest sentit, l'anàlisi revela una escala de complexitat en la qual les oracions adversatives són les que menys problemàtica presenten i les condicionals les que més. Això es deu al fet que, en les oracions adversatives, els temps verbals, excepte en un cas, mantenen els valors factuals per defecte. En canvi, en les oracions condicionals s'ha observat una variació interessant tant en les subordinades (o pròtasis) com en les principals (o apòdosis). En el cas de les concessives, la complexitat és mitjana, ja que d'entre tots els temps que presenten les pròtasis, cinc d’aquests temps expressen més d'un valor factual. Aquests resultats ens han permès formular una sèrie de regles específiques per a aquests tres tipus d'oracions susceptibles de ser implementades en l'anotador automàtic de TAGFACT i que previsiblement milloraran la precisió de l'anotació.


En los últimos años, la representación y el análisis de la factualidad de los eventos mencionados en un texto ha experimentado un creciente interés en el ámbito de la lingüística de corpus y en el procesamiento del lenguaje natural. En este ámbito, el proyecto FactBank para el inglés (Saurí y Pustejovsky, 2009) es un claro referente, por lo que la mayoría de los trabajos posteriores se basan en su propuesta de anotación. La presente investigación pretende contribuir al panorama de la anotación de la factualidad para el español, lengua en la que se ha trabajado muy poco en este campo. El objetivo es estudiar la factualidad de las oraciones adversativas, concesivas y condicionales del español y formalizar reglas que permitan determinar los valores factuales para ser implementadas en un anotador automático basado en conocimiento lingüístico. En este sentido cabe remarcar que nuestro trabajo se enmarca dentro del proyecto TAGFACT (2018), cuyo fin es crear una herramienta automática de anotación de la factualidad a partir del análisis de textos periodísticos en español. Cabe mencionar también que, siguiendo la tendencia en la anotación de la factualidad, entendemos esta como el compromiso, por parte del hablante, respecto a la veracidad de una situación. A la hora de especificar este compromiso, nos hemos basado en el análisis de los valores expresados por los tiempos verbales en sí mismos y en los conectores. Según la bibliografía sobre el tema, los valores factuales de los tiempos verbales son, en general, bastantes estables, o bien porque algunos se asocian a un único valor o bien porque otros pueden asociarse a más de un valor, pero puede establecerse el más frecuente. Ciñéndonos a las oraciones objeto de estudio, los resultados obtenidos en esta investigación nos indican que, sobre todo en las oraciones subordinadas (prótasis), algunos tiempos varían el valor por defecto, por lo que, en estos casos, es crucial el papel de los conectores. En este sentido, el análisis revela una escala de complejidad en la que las oraciones adversativas son las que menos problemática presentan y las condicionales las que más. Esto se debe a que, en las oraciones adversativas, los tiempos verbales, salvo en un caso, mantienen los valores factuales por defecto. En cambio, en las oraciones condicionales se ha observado una variación interesante tanto en las subordinadas (o prótasis) como en las principales (o apódosis). En el caso de las concesivas, la complejidad es media, ya que de entre todos los tiempos que presentan las prótasis, cinco de estos tiempos expresan más de un valor factual. Estos resultados nos han permitido formular una serie de reglas específicas para estos tres tipos de oraciones susceptibles de ser implementadas en el anotador automático de TAGFACT y que previsiblemente van a mejorar la precisión de la anotación.


In recent years, the representation and analysis of the factuality of events mentioned in a text has experienced an increasing interest in the field of corpus linguistics and natural language processing. In this field, the FactBank project for English (Saurí and Pustejovsky, 2009) is a reference, and most of the subsequent works are based on its annotation proposal. The present research aims to contribute to the panorama of factuality annotation for Spanish, a language in which very little work has been done in this field. The aim is to study the factuality of Spanish adversative, concessive and conditional sentences and to formalise rules for determining the factuality values to be implemented in an automatic annotator based on linguistic knowledge. In this sense, it is worth mentioning that our work is part of the TAGFACT project (2018), which aims to create an automatic factuality annotation tool based on the analysis of journalistic texts in Spanish. It is also worth mentioning that, following the trend in factuality annotation, we understand factuality as the speaker's commitment to the veracity of a situation. In determining this commitment, we have based ourselves on the analysis of the values expressed by the verb tenses themselves and by the connectors. According to the literature on the subject, the factual values of verb tenses are, in general, fairly stable, either because some are associated with a single value or because others can be associated with more than one value, but the most frequent one can be established. Sticking to the sentences under study, the results obtained in this research indicate that, especially in subordinate clauses (protasis), some tenses vary the default value, so that, in these cases, the role of connectors is crucial. In this respect, the analysis reveals a scale of complexity in which adversative sentences are the least problematic and conditional sentences the most problematic. This is because, in adversative sentences, the verb tenses, except in one case, maintain the factual values by default. On the other hand, in conditional sentences, an interesting variation has been observed in both subordinate (or protasis) and main (or apodosis) sentences. In the case of the concessive sentences, the complexity is medium, since of all the tenses in the protasis, five of them express more than one factual value. These results have allowed us to formulate a series of specific rules for these three types of sentences which can be implemented in the TAGFACT automatic annotator and which are expected to improve annotation accuracy.

Keywords

Factualitat; Temps verbals; Espanyol; Factualidad; Tiempos verbales; Español; Factuality; Verb tenses; Spanish

Subjects

81 - Linguistics and languages

Knowledge Area

Llengua espanyola

Documents

Tlbv1de1.pdf

2.654Mb

 

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)