An Online writer recognition system based on in-air and on-surface trajectories

Author

Sesa Nogueras, Enric

Director

Faúndez Zanuy, Marcos

Date of defense

2012-09-20

Legal Deposit

B. 34486-2012

Pages

182 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors

Abstract

The main motivation of this dissertation is the exploration of the field of online text-dependent writer recognition, in order to provide evidence of the usefulness of short sequences of text to perform identification and verification, which are the two tasks involved in recognition. From this motivation stem its main goals and contributions: an exploration performed from a practical perspective, thus requiring the development of a recognition system, and the gathering of evidence concerning the discriminative power of in-air trajectories (the trajectories described while not exerting any pressure on the writing surface, when the hand moves in the air while transitioning from one stroke to the next), i.e. their ability to discriminate among writers. In-air and on-surface trajectories have been analyzed from the perspective of information theory and the results yielded by this analysis show that, except for pressure, they contain virtually equal amounts of information and are notably non-redundant. This suggests that in-air trajectories may have a considerable discriminative power and that they may help improve the overall recognition performance when combined with on-surface trajectories. An innovative writer recognition system that fulfils the abovementioned practical goal has been devised. It follows an allographic approach, that is, it does not take into account the global characteristics of the text but focuses on character and character-fragment shapes. Strokes are considered the structural units of handwriting and any piece of text is regarded as two separate sequences, one of pen-up and one of pen-down strokes. The system relies on a pair of catalogues of strokes, built in an unsupervised manner by means of self-organizing maps, which allow mapping sequences of strokes into sequences of integers. The latter sequences, much simpler than the original ones, can be effectively compared by means of dynamic time warping, which takes advantage of the neighbouring properties exhibited by self-organizing maps. Measures obtained from each sequence can be combined in a later step. The recognition system has been experimentally tested using 16 uppercase words from the BiosecurID database, which contains 4 executions of each word donated by 400 writers. The experimental results obtained clearly sustain the claim that online words have a notable recognition potential and show the suitability of the allographic approach to perform writer recognition in the online text-dependent context. Regarding identification, the system compares positively to other word-based identification schemas. As for verification, the accuracy levels attained do not lie much below the accuracies reported for today¿s state-of-the-art signature verification methods. Furthermore, the results obtained from in-air trajectories have substantiated what the information analysis had already suggested: their considerable recognition power and their notable non-redundancy with respect to on-surface trajectories. Finally, a new method to generate synthetic samples of online words from real ones has been proposed. This method is based on the recognition system previously described, takes advantage of its main characteristics and can be seamlessly integrated into it. Synthetic samples are used to enlarge the enrolment sets, which has the effect of substantially improving the recognition accuracy of the system.


La principal motivació d’aquesta dissertació és la investigació en el camp del reconeixement d’escriptors en la modalitat online depenent del text, amb intenció de proporcionar evidències que avalin la utilitat de les seqüències curtes per a la identificació i la verificació, que són les dues tasques compreses en el reconeixement. D’aquesta motivació se’n deriven els seus objectius més rellevants: una exploració feta des d’una perspectiva pràctica que requereix, doncs, el desenvolupament d’un sistema de reconeixement; i la recerca d’evidència relacionada amb la potència discriminant de les trajectòries en l’aire (aquelles que són executades sense que l’estri d’escriptura exerceixi pressió sobre la superfície, en les transicions entre traços), això és, la seva capacitat per a reconèixer escriptors. Les trajectòries en l’aire i sobre la superfície han estat analitzades des de la perspectiva de la teoria de la informació. Els resultats obtinguts d’aquesta anàlisi mostren que, llevat de la pressió, ambdós tipus de trajectòries contenen quantitats d’informació pràcticament idèntiques, amb un nivell notable de no redundància. Això suggereix que les trajectòries en l’aire potser posseeixen una potència discriminant considerable i que la capacitat global de reconeixement pot millorar si es combinen amb les trajectòries sobre la superfície. S’ha desenvolupat un sistema de reconeixement innovador que representa l’assoliment de l’objectiu pràctic. Aquest sistema està basat en una aproximació al•logràfica, això és, no té en compte les característiques globals del text sinó que està focalitzat en les formes dels caràcters i dels seus fragments. Els traços són considerats la unitat estructural bàsica de l’escriptura i qualsevol fragment de text és entès com un parell de seqüències separades, una de traços en superfície i una de traços elevats. El sistema treballa en base a un parell de catàlegs de traços, construïts de manera no supervisada amb l’ajut de mapes autoorganitzats, que li permeten transformar les seqüències de traços en seqüències de números enters. Aquestes darreres seqüències, molt més simples que no pas les originals, poden ser comparades, de manera efectiva, mitjançant el dynamic time warping (alineament temporal dinàmic) el qual treu profit de les propietats de veïnatge característiques dels mapes autoorganitzats. Les mesures que s’obtenen de cada seqüència poden ser combinades en un pas posterior. El sistema de reconeixement ha estat provat experimentalment fent ús de les 16 paraules en majúscules de la base de dades BiosecurID, la qual en conté 4 realitzacions de cadascuna donades per 400 persones. Els resultats experimentals que s’han obtingut recolzen clarament l’afirmació que les paraules online presenten una potència discriminant notable i avalen l’adequació de l’aproximació al•logràfica per a dur a terme reconeixement d’escriptors en el context online depenent del text. Quant a la identificació, el sistema es compara favorablement amb altres mètodes basats en paraules. I, pel que fa a la verificació, els nivells de precisió obtinguts no es troben gaire lluny dels nivells assolits pels mètodes de verificació de signatura representatius de l’estat de l’art actual. És més, els resultats que s’obtenen de les trajectòries en l’aire han corroborat allò que havia estat suggerit per l’anàlisi de la informació: la seva considerable potència discriminant i la seva substancial manca de redundància respecte de les trajectòries sobre la superfície. Finalment, s’ha proposat un nou sistema de generació de mostres sintètiques de paraules online. Aquest mètode està basat en el sistema de reconeixement abans descrit, n’aprofita les característiques principals i s’hi pot integrar amb facilitat. Les mostres sintètiques s’utilitzen per engrandir els conjunts d’inscripció (enrolment sets), la qual cosa té com a efecte una millora substancial de la precisió del sistema.

Subjects

004 - Computer science and technology. Computing. Data processing

Documents

TESN1de1.pdf

5.874Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/

This item appears in the following Collection(s)