A temporal and pragmatic analysis of gestures-speech association: a corpus-based approach using the novel Multimodal MultiDimensional (M3D) labeling system

Author

Rohrer, Patrick Louis

Director

Prieto Vives, Pilar

Delais-Roussaire, Elisabeth

Date of defense

2022-12-16

Pages

387 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

Doctorate programs

Programa de doctorat en Traducció i Ciències del Llenguatge

Abstract

Human language is essentially multimodal in that speakers use multiple channels to convey meaning, including speech prosody and gesture (e.g. Mondada, 2016; Perniss, 2018). In the last decades, studies within the field of gesture research have shown both the strong temporal relationship between manual co-speech gestures and prosodic prominence, and have given initial evidence of the relevant pragmatic role of gestures. However, gesture studies have shown a tendency to focus on the role of prosodic prominence alone as the main attractor for gesture production, and little empirical research has systematically assessed the role of prosodic phrasal structure in the attraction of gesture, or the joint contribution of gestural and prosodic prominence for pragmatic effects, particularly in terms of signaling information structure (henceforth, IS). Furthermore, no studies have specifically accounted for potential difference in gesture type (i.e., referential vs. non-referential gestures). In our view, a multidimensional analysis of independent aspects of gesture is crucial to allow for a systematic assessment of their different prosodic and pragmatic characteristics. The two main goals of this thesis will be to develop a novel gesture labeling system (i.e., the MultiModal MultiDimensional (M3D) system) and to apply the system to better understand the prosodic and pragmatic characteristics of both referential and non-referential gestures. The present PhD thesis will consist of four independent studies plus introductory and conclusion sections that unite the four studies. The first study proposes M3D as a novel tool for multidimensional gesture annotation that is in line with the advancing theories in gesture. Through the application of M3D to a corpus of French TED Talks (5 TED Talks with over 37 minutes of multimodal speech), the second study shows how phrase-initial accents act as strong gestural attractors regardless of gesture type, and how the production of multiple subsequent gestures is largely guided by the temporal duration of prosodic phrases. To further examine the effects of phrasal position, a third study was carried out on English TED Talks (5 TED Talks with over 28 minutes of multimodal speech), assessing the temporal association of gestures with pitch accentuation while systematically taking into account the effects of nuclear status and degrees of relative prominence. The results highlight the role of prenuclear pitch accentuation as a strong attractor of gesture, independent of relative prominence. Finally, the fourth study assesses the joint role of prosody and gesture in the marking of IS (particularly, the information status of referents; henceforth, ISR) in the same corpus of English TED Talks. The results show how prominence (via pitch accentuation) and the production of gesture work together to mark newer information in speech, with pitch accent type and gesture type not playing key roles as cues to ISR. All in all, the four studies contained in this thesis offer a novel gesture annotation tool that can be used for the development of multimodal corpora accounting for a variety of aspects of speech, gesture, and prosody. The empirical studies further our knowledge about the temporal association of gesture and speech, showing that not only prosodic prominence, but also prosodic phrasing are key to understanding the relationship between the two channels. The studies also further our knowledge in terms of how these two channels interact to convey pragmatic meaning. Thus, this multidimensional analysis of gesture greatly contributes to the ongoing effort to elucidate the precise nature of the temporal and pragmatic properties of both referential and non-referential gestures in discursive speech.


El llenguatge humà és per naturalesa multimodal, ja que els parlants utilitzen múltiples mitjans, com ara la prosòdia i el gest, per transmetre significats comunicatius (p. ex., Mondada, 2016; Perniss, 2018). En les últimes dècades, estudis dins de l’àmbit de la investigació gestual han demostrat la forta relació temporal entre els gestos manuals i la prominència prosòdica, i han començat a mostrar el rol pragmàtic dels gestos. Tanmateix, aquests estudis s’han centrat en el paper de la prominència prosòdica com a principal pol d’atracció per la producció de gestos, i poca investigació empírica ha avaluat sistemàticament el paper de l’estructura prosòdica de la frase en aquest procés. També se sap poc sobre els efectes pragmàtics de la gestualitat, especialment pel que fa a l’estructura de la informació (d’ara endavant, IS). A més a més, cap estudi no ha tingut en compte la possible diferència entre els trets temporals i pragmàtics dels diferents tipus de gest (és a dir, entre els gestos referencials i no referencials). Al nostre parer, una anàlisi multidimensional del gest és crucial per permetre una avaluació sistemàtica de les seves característiques prosòdiques i pragmàtiques. Els dos objectius principals d'aquesta tesi seran desenvolupar un nou sistema d'etiquetatge gestual (és a dir, el sistema MultiModal MultiDimensional (M3D)) i aplicar el sistema per entendre millor les característiques prosòdiques i pragmàtiques dels gestos tant referencials com no referencials. La present tesi doctoral consta de quatre estudis independents a més a més de les seccions d’introducció i conclusions que uneixen els quatre estudis. El primer estudi proposa el sistema M3D com una nova eina per a l'anotació multidimensional de gestos que està en línia amb les teories més avançades del camp. Mitjançant l'aplicació de l’M3D a un corpus de TED Talks en llengua francesa (5 TED Talks amb més de 37 minuts de parla multimodal), el segon estudi mostra com els accents tonals que es troben a inici de la frase actuen com a fort punt d’ancoratge per a la gestualitat, independentment del tipus de gest, i com la producció de múltiples gestos contigus es guia en gran part per la durada temporal de les frases prosòdiques. Per examinar més a fons els efectes de la posició de la frase, es va dur a terme un tercer estudi sobre un corpus de TED Talks en llengua anglesa (5 TED Talks amb més de 28 minuts de parla multimodal). L’estudi va avaluar l'associació temporal dels gestos amb l'accentuació prosòdica tenint en compte de manera sistemàtica els efectes de nuclearitat dels accents i del seu grau de prominència. Els resultats destaquen el paper de l'accentuació prenuclear com a fort pol d’atracció del gest, independentment de la seva prominència relativa. Finalment, el quart estudi avalua el paper conjunt de la prosòdia i el gest en el marcatge de l'IS (en particular, l'estat informatiu dels referents; d'ara endavant, ISR pel nom en anglès) en el mateix corpus de TED Talks anglesos. Els resultats mostren com la prominència (mitjançant l'accentuació prosòdica) i la producció gestual funcionen junts per marcar la informació més nova del discurs. Tanmateix, el tipus d'accent tonal i el tipus de gest no juguen un paper clau com a marcadors de l'ISR. En resum, els quatre estudis presentats en aquesta tesi ofereixen una nova eina d'anotació gestual que es pot utilitzar per al desenvolupament de corpus multimodals que tenen en compte diversos aspectes de la parla, el gest i la prosòdia. Els resultats dels estudis empírics amplien el nostre coneixement sobre l'associació temporal entre el gest i la parla i demostren que no només la prominència prosòdica, sinó també el fraseig és una peça clau per entendre la relació temporal entre gest i parla. Els estudis també milloren el nostre coneixement sobre com aquests dos canals interactuen per transmetre significats pragmàtics com l’estructura informativa. Així, aquesta anàlisi multidimensional del gest contribueix en gran mesura a l'esforç actual per dilucidar de forma més precisa la naturalesa de les propietats temporals i pragmàtiques dels gestos referencials i no referencials en el discurs.

Keywords

Gestures-speech association; M3D; MultiModal MultiDimension (M3D) labeling system

Subjects

81 - Linguistics and languages

Documents

tplr.pdf

2.619Mb

 

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)