Análisis estadístico de corpus cronológicos : aplicación al estudio de bases bibliográficas y textos retóricos

Author

Hernández Ramírez, Daría Micaela

Director

Bécue, Mónica

Date of defense

2016-12-19

Pages

196 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa

Abstract

Due to the huge amount of textual data that is persintently generated, researchers are obliged to classify and analize them, even though there are different ways as well as computing tools to facilitate their study. In this thesis a procedure method as well as its computing tools are given in order to analyze chronological corpus. Our goal is focused mainly in analysing the corpus structure and clarifying the vocabulary flow. The proposed statistical methodology follows the one described by Bécue-Bertaut (2014) which allows the combination of classic multidimensional methods for data analysis with those that study the structure and evolution of corpus. In order to achieve this goal, the corpus is divided in three parts, according to the function of the words: specialized or local vocabulary, according to the addressed issue, which marks the evolutive corpus strategy; steady vocabulary, including those words used on a regular basis throughout the corpus and, random vocabulary, including those tool words like prepositions, conjunctions and so on. According to the words functions we suggest a methodology that combines the vocabulary index, the chronological characteristic words and a goodness of fit test for a Poisson distribution. After specialized vocabulary is analyzed and proposed methodology follows the idea developed by Benzécri (1973, 1981), implemented in the method of Analysis of a Data Matrix (AMADO), and incorporates a new procedure consisting of: first, order all specialized words: a) by theirs coordinates on the first dimension of a Correspondence Analysis (CA) and b) according to the document or segment documents characterized by the chronological characteristics words; second, display the vocabulary that determines the evolution through Bertin¿s Grafics and third, show the model structure or chronological evolution scheme by AC. The results obtained show the advantages of the analysis of data through a chronological approach to answer questions such as: What are the most important issues? Is there evolution in the vocabulary? What determines its evolution? The corpus is well organized? Is there thematic diversity? What role do each of the words according to their function? What are the words that allow evolve the corpus? The results are shown by analyzing a bibliographic base and a rhetorical text. The methodology was implemented in a set of functions programmed in R and can be applied to any type of corpus.


Debido a la gran cantidad de datos textuales que se generan constantemente, los investigadores se enfrentan con la necesidad de clasificarlos y analizarlos, aunque existen diferentes técnicas y herramientas computacionales para facilitar su estudio. En esta tesis se proporciona un procedimiento metodológico, así como su herramienta computacional para el análisis de corpus cronológicos. Nuestro interés se centra en modelizar la estructura del corpus y clarificar el flujo de su vocabulario. La metodología propuesta continúa con la linea metodológica desarrollada por Bécue- Bertaut (2014) la cual combina los métodos multidimensionales clásicos para el análisis de datos con los métodos para el estudio de la estructura y la evolución de los corpus. Para modelizar la estructura del corpus y clarificar el flujo de su vocabulario, el corpus se segmenta en tres partes, de acuerdo a las funciones que desempeñan las palabras: vocabulario especializado o local, que es inducido por el tema tratado, pero que también marca la estrategia evolutiva del corpus; vocabulario estable, conformado por las palabras utilizadas de forma regular a lo largo del corpus y, vocabulario aleatorio, formado por las palabras herramientas en general, como preposiciones y determinantes. En la descomposición del vocabulario según las funciones de las palabras, proponemos una metodología que combina el índice de reparto del vocabulario, las palabras características cronológicas y una prueba de bondad de ajuste para la distribución de Poisson. Después se analiza el vocabulario especializado y la metodología propuesta sigue la idea desarrollada por Benzécri (1973, 1981), implementada en el método de Análisis de una Matriz de Datos (AMADO), e incorpora un nuevo procedimiento que consiste en: primero, ordenar todas las palabras especializadas: a) por sus coordenadas sobre la primera dimensión de un Análisis de Correspondencias (AC) y b) de acuerdo con el documento o segmento de documentos caracterizados por las palabras características cronológicas; segundo, visualizar el vocabulario que determina la evolución a través de los gráficos de Bertin y, tercero, mostrar la estructura del modelo o esquema de evolución cronológica mediante AC. Los resultados que se obtienen muestran las ventajas que ofrece el análisis de los datos a través de un enfoque cronológico al responder a preguntas como: ¿Cuáles son los temas más relevantes? ¿Existe evolución en el vocabulario? ¿Qué es lo que determina su evolución? ¿El corpus está bien organizado? ¿Existe diversidad temática? ¿Qué papel desempeña cada una de las palabras según su función? ¿Cuáles son las palabras que permiten evolucionar al corpus? Los resultados se muestran mediante el análisis de una base bibliográfica y de un texto retórico. La metodología fue implementada en un conjunto de funciones programadas en R y puede ser aplicada a cualquier tipo de corpus.

Subjects

517 - Analysis

Knowledge Area

Àrees temàtiques de la UPC::Matemàtiques i estadística

Documents

TDMHR1de1.pdf

3.839Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)