Language: universals, principles and origins

Author

Ferrer i Cancho, Ramon

Director

Solé Vicente, Ricard, 1962-

Date of defense

2003-12-12

Pages

207 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament de Ciències de la Computació

Abstract

Here, old and new linguistic universals, i.e. properties obeyed by all languages on Earth are investigated. Basic principles of language predicting linguistic universals are also investigated. More precisely, two principles of reference, i.e. coding least effort and decoding least effort, a reformulation of G. K. Zipf's speaker and hearer least e ort principles. Such referential principles predict Zipf's law, a universal of word frequencies, at the maximum tension between coding and decoding needs. Although trivial processes have been proposed for explaining Zipf's law in non-linguistic contexts, Zipf's law meaningfulness for human language is supported here. Minimizing the Euclidean distance between syntactically related words in sentences is a principle predicting projectivity, a universal stating that arcs between syntactically linked words in sentences generally do not cross. Besides, such a physical distance minimization successfully predicts (a) an exponential distribution for the distribution of the distance between syntactically related words and (b) subject-verb-object (SVO) order superiority in the actual use of world languages. Previously unreported non-trivial features of real syntactic dependency networks are presented here, i.e. scale-free degree distributions, small-world phenomenon, disassortative mixing and hierarchical organization. Instead of a universal grammar, a single universality class is proposed for world languages. Syntax and symbolic reference are unified under a single topological property, ie. connectedness in the network of signal-object associations of a communication system. Assuming Zipf's law, not only connectedness follows, but the above properties of real syntactic networks. Therefore, (a) referential principles are the principles of syntax and symbolic reference, (b) syntax is a byproduct of simple communication principles and (c) the above properties of syntactic dependency networks must be universal if Zipf's law is universal, which is the case. The transition to language is shown to be of the kind of a continuous phase transition in physics. Thereafter, the transition to human language could not have been gradual. The reduced network morphospace resulting from a combination of a network distance minimization principle and link density minimization principle is presented as an alternative hypothesis and a promising prospect for linguistic networks subject to fast communication pressures. The present thesis is unique among theories about the origins of language, in the sense that (a) it explains how words or signals naturally glue in order to form complex messages, (b) it validates its predictions with real data, (c) unifies syntax and symbolic reference and (d) uses ingredients already present in the animal communication systems, in a way no other approximations do. The framework presented is radical shift in the research of linguistic universals and its origins through the physics of critical phenomena. The principles presented here are not principles of human language, but principles of complex communication. Therefore, such principles suggest new prospects for other information transmission systems in nature.


En aquesta tesi s'investiguen vells i nous universals lingüístics, és a dir, propietats que obeeixen totes les llengües de la Terra. També s'estudien principis bàsics del llenguatge que prediuen universals lingüístics. En concret, dos principis referencials, mínim esforç de codificació i mínim esforç de descodificació, una reformulació dels principi de mínim esforç de G. K. Zipf pel qui parla i pel qui escolta. Els esmentats principis referencials prediuen la llei de Zipf, un universal de la freqüència de les paraules en el punt de màxima tensió entre necessitats de codificació i descodificació. Encara que s'han proposat processos trivials per explicar la llei de Zipf en contextos no lingüístics, aquí es recolza la significança d'aquesta llei per al llenguatge humà. Minimitzar la distància euclidea entre paraules sintàcticament relacionades dins frases és un principi que prediu projectivitat, un universal que afirma que els arcs entre paraules sintàcticament relacionades dins una frase no es creuen en general. D'una altra banda, aquesta minimització de la distancia física prediu (a) una distribució exponencial per a la distribució de la distància entre paraules sintàcticament relacionades (b) superioritat de l'ordre SVO en l’ús real de les llengües del món. Aquí es presenten propietats totalment noves de les xarxes de dependències sintàctiques, és a dir, distribucions de grau potencials, fenomen del món petit assortative mixing i organització jeràrquica. Enlloc d'una gramàtica universal, es proposa una única classe d'universalitat per a les llengües del món. Sintaxi i referència simbòlica són unificades sota una única propietat topològica: connectivitat en la xarxa d'associacions senyal-objecte d'un sistema de comunicació. Assumint la llei de Zipf, no sols se segueix connectivitat sinó les propietats de xarxes sintàctiques reals esmentades més amunt. Per tant, (a) els principis referencials són els principis de la sintaxi i la referència simbòlica, (b) la sintaxi és el subproducte de principis simples de la comunicació i (c) les propietats esmentades de les xarxes de dependències sintàctiques han de ser universals si la llei de Zipf és universal, que és el cas. Es mostra que la transició a llenguatge és del tipus de les transicions de fase contínues en física. Per tant, la transició a llenguatge no va poder ser gradual. Es presenta el morfoespai reduït que resulta d'una combinació d'un principi de minimització de la distància i un principi de minimització de la densitat de connexions com una hipòtesi alternativa i una perspectiva prometedora per a xarxes lingüístiques que pateixin pressions per comunicació ràpida. La present tesi és única entre les teories sobre els orígens del llenguatge, en el sentit que (a) explica com les paraules o els senyals es combinen de forma natural per tal de formar missatges complexos, (b) valida les seves prediccions amb dades reals, (c) unifica sintaxi i referència simbòlica i usa ingredients que ja estan presents en els sistemes de comunicació animal, d'una forma que cap altra aproximació fa. El marc presentat és un canvi radical en la recerca dels universals del llenguatge i els seus orígens a través de la física dels fenòmens crítics. Els principis presentats aquí no són els principis del llenguatge humà, sinó els principis de la comunicació complexa. Per tant, els propdits principis suggereixen noves perspectives per a altres sistemes naturals de transmissió d’informació complexa.

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Àrees temàtiques de la UPC::Informàtica

Documents

TRFiC1de1.pdf

1.983Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

This item appears in the following Collection(s)