Extracció de terminologia: elements per a la construcció d'un SEACUSE (Sistema d'Extracció Automàtica de Candidats a Unitats de Significació Especialitzada)

dc.contributor
Universitat Pompeu Fabra. Institut Universitari de Lingüística Aplicada
dc.contributor.author
Estopà, Rosa
dc.date.accessioned
2011-04-12T16:35:21Z
dc.date.available
2002-03-19
dc.date.issued
1999-07-26
dc.date.submitted
2002-03-19
dc.identifier.isbn
8469985124
dc.identifier.uri
http://www.tdx.cat/TDX-0319102-135659
dc.identifier.uri
http://hdl.handle.net/10803/7489
dc.description.abstract
L'objectiu principal d'aquesta tesi és dissenyar un model d'un Sistema d'Extracció Automàtica de Candidats a Unitats de Significació Especialitzada (SEACUSE) basat en fonaments lingüístics de diferents tipus i adequat a les necessitats d'unes activitats professionals concretes.<br/><br/>Per fer-ho, en el primer capítol es descriu els sistemes d'extracció automàtica de candidats a terme (SEACAT) i s'analitza i valora els principals SEACAT amb l'objectiu d'elaborar un estat de la qüestió en aquest camp que evidenciï les característiques i sobretot les limitacions d'aquests sistemes.<br/><br/>En el segon capítol, en primer lloc, es validen les hipòtesis que vam postular en el treball de recerca sobre els patrons estructurals de les UTP i en segon lloc a comprovar les principals limitacions dels SEACAT que es basen en patrons morfosintàctics. Aquestes limitacions es manifesten en dos aspectes: el silenci (unitats pertinents no detectades per l'extractor) i el soroll (unitats no pertinents presentades com si ho fossin).<br/><br/>Les dades que es desprenen de l'anàlisi del silenci i el soroll s'estudien en el tercer i quart capítol, respectivament. Així, primer s'analitzen els tipus i les causes de silenci que produeixen els SEACAT, i tot seguit els tipus i les causes del soroll generat per aquests sistemes.<br/><br/>El cinquè proposa elements i estratègies perquè un sistema d'extracció automàtica redueixi el silenci i el soroll, i d'aquesta manera aconsegueixi que els seus resultats s'acostin més al reconeixement i delimitació manuals de les unitats de significació especialitzada.<br/><br/>El sisè capítol introdueix el punt de vista de l'usuari i planteja el fet que no totes les activitats professionals requereixen els mateixos tipus ni el mateix nombre d'unitats especialitzades d'un text. Aquesta hipòtesi és verificada a través d'una prova experimental basada en les necessitats de quatre activitats professionals diferents.<br/><br/>I, finalment, en el setè capítol, s'exposa una proposta de model de SEACUSE que, a més de les estratègies plantejades en el capítol cinquè, té en compte les finalitats dels professionals a l'hora de presentar els resultats.
cat
dc.description.abstract
El objetivo principal de esta tesis es diseñar un modelo de un Sistema de Extracción Automática de Candidatos a Unidades de Significación Especializada (SEACUSE) basado en fundamentos lingüísticos diferentes y adecuado a las necesidades de unas actividades profesionales concretas.<br/><br/>En el primer capítulo se describen los sistemas de extracción automática de candidatos a término (SEACAT) y se analizan y valoran los principales SEACAT con el objetivo de elaborar un estado de la cuestión en este campo que evidencie las características y sobre todo las limitaciones de estos sistemas.<br/><br/>En el segundo capítulo, primeramente, se validan las hipótesis que postulamos en el proyecto de investigación previo a la tesis doctoral sobre los patrones estructurales de las UTP y después se comprueba las principales limitaciones de los SEACAT que se basan en patrones morfosintácticos. Estas limitaciones se manifestar en dos aspectos: el silencio (unidades pertinentes no detectadas por el extractor) y el ruido (unidades no pertinentes presentadas como si lo fueran).<br/><br/>Los datos que se desprenden del análisis del silencio y del ruido se estudian en los capítulos tercero y cuarto, respectivamente. Así, primero se analizan los tipos y las causas de silencio que producen los SEACAT, y seguidamente los tipos y las causas del ruido generado por estos sistemas.<br/><br/>El quinto propone elementos y estrategias para que un sistema de extracción automática reduzca el silencio y el ruido, y de esta manera consiga que sus resultados se aproximen más al reconocimiento y delimitación manuales de las unidades de significación especializada.<br/><br/>El sexto capítulo introduce el punto de vista del usuario y plantea el hecho de que no todas las actividades profesionales requieren los mismos tipos ni el mismo número de unidades especializadas de un texto. Esta hipótesis se verifica a través de una prueba experimental basada en las necesidades de cuatro actividades profesionales diferentes.<br/><br/>Y, finalmente, en el último capítulo, se expone una propuesta de un modelo de SEACUSE que, además de las estrategias planteadas en el quinto capítulo, tiene en cuenta las finalidades de los profesionales en la presentación de los resultados.
spa
dc.description.abstract
The main objective of this dissertation is to design a model for an Automatic Extraction System for Candidates of Specialized Meaning Units (AESCSMU) based upon different types of linguistic foundations that are adequate to meet the needs of concrete professional activities.<br/><br/>To achieve this purpose, the first chapter describes the automatic extraction systems for term candidates (AESTCs). It also analyzes and makes an evaluation of the main AESTCs with the purpose of presenting the state of the issue in this field of knowledge, while showing the characteristics and, above all, the limitations of these systems.<br/><br/>The second chapter validates, in the first place, the hypotheses that are going to be taken for granted during the research project about the structural patterns of the multiword units, and, in the second place, tests the main limitations of the AESTCs that are based upon morphosyntactic patterns. These limitations become manifest in two aspects: silence (when the extractor does not detect pertinent units) and noise (when non-pertinent units are presented as if they were pertinent).<br/><br/>Data derived from the analysis of silence and noise are studied both on the third and fourth chapters. There, we first analyze the types and causes of silence produced by the AESTCs, and then the types and causes of the noise generated by these systems.<br/><br/>The fifth chapter proposes elements and strategies so that automatic extraction systems may reduce silence as well as noise. This way we can accomplish that their results may come closer to the manual identification and delimitation of specialized meaning units.<br/><br/>The sixth chapter introduces of the user's point of view, and states the fact that not all the professional activities require the same type and the same number of specialized units from a text. This hypothesis is verified through an experimental test based upon the needs of four different professional activities.<br/><br/>Finally, the seventh and last chapter proposes a possible model of an AESCSMU that, besides the strategies presented on chapter five, considers the goals of professionals at the time of presenting the results.
eng
dc.format.mimetype
application/pdf
dc.language.iso
cat
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Sistemes d'extracció automàtica de terminologia
dc.subject
Objecte de la terminologia
dc.subject
Extracción automática de terminología
dc.subject
Aplicacions terminològiques
dc.subject
Terminologia
dc.subject
Unitat terminològiques
dc.subject
Terminological object
dc.subject
Aplicaciones terminológicas
dc.subject
Term automatic extraction
dc.subject
Terminological applications
dc.subject
Terminological units
dc.subject
Automatic extraction systems
dc.subject
Unidad de significación especializada
dc.subject
Objeto de la terminología
dc.subject
Unidad terminológica
dc.subject
Extracció automàtica de terminologia
dc.subject
Terminología
dc.subject
Terminology
dc.subject
Sistemas de extracción automática de terminología
dc.subject.other
Lingüística i llengües
dc.title
Extracció de terminologia: elements per a la construcció d'un SEACUSE (Sistema d'Extracció Automàtica de Candidats a Unitats de Significació Especialitzada)
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
80
cat
dc.subject.udc
81
cat
dc.contributor.authoremail
rosa.estopa@trad.upf.es
dc.contributor.director
Cabré, M. Teresa (Maria Teresa)
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
cat
dc.identifier.dl
B.14059-2002
dc.description.degree
Programa de doctorat en Traducció i Ciències del Llenguatge


Documents

treb1de2.pdf

1.015Mb PDF

treb2de2.pdf

417.8Kb PDF

Aquest element apareix en la col·lecció o col·leccions següent(s)