Efficient and Scalable Handwritten Word Spotting on Historical Documents using Bag of Visual Words

Author

Aldavert-Miró, David

Director

Rossinyol Sanabra, Marçal

Tutor

Lladós, Josep

Date of defense

2021-04-22

Pages

156 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

La localització de paraules en el camp de anàlisis de documents es pot definir com el reconeixement de patrons encarregat de localitzar i recuperar una paraula específica dins d'una col·lecció d'imatges sense transcriure explícitament el corpus sencer. El seu ús és particularment interessant quan s'aplica a escenaris on el reconeixement òptic de caràcters funciona malament o no es pot utilitzar en absolut. Aquesta tesi se centra en un escenari d'aquest tipus, detectar paraules en documents manuscrits històrics que han estat escrits per un sol autor o per diversos autors amb una cal·ligrafia similar. Aquest problema requereix d'una signatura visual que sigui robusta contra artefactes de les imatges, flexible per adaptar-se a les variacions del traç i que sigui eficient per recuperar la informació de manera ràpida. Per a això, hem desenvolupat un conjunt de mètodes de localització de paraules que, en la seva base, utilitzen la coneguda representació Bag-of-Visual-Words (BoVW). Aquesta representació ha guanyat popularitat entre la comunitat d'anàlisi d'imatges de documents per caracteritzar paraules manuscrites en tasques no supervisades. Tanmateix, la majoria d'enfocaments en aquest camp es basen en una configuració bàsica de BoVW i ignoren les codificacions complexes i les representacions espacials. Determinem quines configuracions de BoVW proporcionen el millor increment de rendiment. A continuació, estenem la localització de paraules de sistemes on aquestes estan pre-segmentades a un on no utilitzem cap tipus de segmentació. L'enfocament proposat selecciona regions sobreposades del document com a candidates i les caracteritza amb una signatura BoVW. La localització s'aconsegueix comparant la imatge de consulta amb les signatures dels candidats i retornant les ubicacions que tenen un consens més alt. Aquest és un enfocament senzill però potent que requereix una signatura compacta. Primer projectem la signatura BoVW en un espai de temes semàntics i després la comprimim encara més mitjançant un producte de quantificadors. La signatura resultant requereix només unes dotzenes de bytes, cosa que ens permet indexar milers de pàgines en un ordinador de sobretaula estàndard. També estudiem com combinar diferents modalitats d'informació per tal de crear un sistema on les paraules s'indexa mitjançant una modalitat d'informació i les consultes mitjançant una altra. Considerem tres modalitats d'informació diferents: visual, textual i àudio. La nostra proposta és crear un espai de característiques latents on les característiques relacionades semànticament es projectin sobre els mateixos temes latents. Creant així un nou espai on la informació de diferents modalitats es pugui comparar. Els diccionaris que s'utilitzen per codificar les signatures BoVW es creen generalment mitjançant un algorisme de no supervisat i requereixen provar diversos paràmetres per determinar quina configuració és la millor per a una col·lecció de documents determinada. Proposem un algorisme d'agrupament semàntic que permet estimar els paràmetres a partir de dades. Atès que la recopilació de dades anotades és costosa, fem servir imatges de paraules generades sintèticament. El diccionari resultant proporciona un bon rendiment a les col·leccions de documents que utilitzen el mateix estil de text. També proposem l'ús d'un diccionari addicional per aproximar els descriptors i reduir la complexitat de codificació del descriptor a sub-lineal. Finalment, ens centrem en el problema de la dimensionalitat de les signatures. Proposem una nova signatura on cada element representa la probabilitat que un determinat símbol tingui una determinada ubicació dins la imatge de la paraula. Aquesta signatura és extremadament compacta i combinada amb tècniques de compressió, pot representar la imatge d'una paraula amb només uns quants bytes.


La detección de palabras se puede definir como el reconocimiento de patrones cuyo objetivo es localizar y recuperar una palabra clave específica dentro de una colección de imágenes de documentos sin transcribir explícitamente todo el corpus. Su uso es particularmente interesante cuando se aplica en escenarios donde el reconocimiento óptico de caracteres funciona mal o no se puede utilizar en absoluto. Esta tesis se centra en tal escenario, la detección de palabras en documentos históricos escritos a mano que han sido escritos por un solo autor o por varios autores con una caligrafía similar. Este problema requiere una signatura visual que sea robusta a los artefactos de la imagen, flexible para adaptarse a las variaciones del trazo y eficiente para recuperar información de manera rápida. Para ello, hemos desarrollado un conjunto de métodos de detección de palabras que, en su base, utilizan la conocida representación de Bag-of-Visual-Words (BoVW). Esta representación ha ganado popularidad entre la comunidad de análisis de imágenes de documentos para caracterizar palabras escritas a mano en tareas de detección no supervisadas. Sin embargo, la mayoría de los enfoques en este campo se basan en una configuración básica de BoVW y no tienen en cuenta la codificación compleja y las representaciones espaciales. Determinamos qué configuraciones de BoVW proporcionan el mejor impulso de rendimiento al sistema de detección. Luego, ampliamos la detección de palabras de sistemas donde estas están pre-segmentadas a uno sin segmentación. El enfoque propuesto selecciona regiones solapadas del documento como candidatas y las caracteriza con BoVW. La localización se logra comparando la imagen de consulta con las regiones candidatas y y devolviendo las ubicaciones que proporcionan un mayor consenso. Este es un enfoque simple pero poderoso que requiere una signatura compacta. Primero proyectamos la signatura BoVW en un espacio de temas semánticos y luego lo comprimimos aún más usando un producto de cuantificadores. La signatura resultante solo requiere unas pocas docenas de bytes, lo que nos permite indexar miles de páginas en una ordenador de sobremesa común. También estudiamos cómo combinar diferentes modalidades de información para crear un sistema donde las palabras se indexa usando una modalidad de información y las consultas se usando otra. Consideramos tres modalidades de información diferentes: visual, textual y audio. Nuestra propuesta es crear un espacio de características latentes donde las características que están relacionadas semánticamente se proyectan sobre los mismos temas. Creando así un nuevo espacio de características donde la información procedente de diferentes modalidades se puede comparar. Los diccionarios utilizados para codificar las signaturas BoVW se crean generalmente utilizando un algoritmo de agrupación no supervisado y requieren probar múltiples parámetros para determinar qué configuración es la mejor para una determinada colección de documentos. Proponemos un algoritmo de agrupamiento semántico que permite estimar el mejor parámetro a partir de los datos. Dado que recopilar datos anotados es costoso, utilizamos imágenes de palabras generadas sintéticamente. El diccionario resultante ofrece un buen rendimiento en colecciones de documentos que utilizan el mismo estilo de escritura. También proponemos el uso de un diccionario adicional para aproximar descriptores y reducir la complejidad de codificación del descriptor a sub-lineal. Finalmente, nos enfocamos en el problema de la dimensionalidad de las signaturas. Proponemos una nueva signatura de probabilidad de símbolo donde cada elemento representa la probabilidad de que un determinado símbolo esté presente en una determinada ubicación de la imagen de la palabra. Esta signatura es extremadamente compacta y combinada con técnicas de compresión puede representar la imágenes de una palabras usando solo unos pocos bytes.


Word spotting can be defined as the pattern recognition tasked aimed at locating and retrieving a specific keyword within a document image collection without explicitly transcribing the whole corpus. Its use is particularly interesting when applied in scenarios where Optical Character Recognition performs poorly or can not be used at all. This thesis focuses on such a scenario, word spotting on historical handwritten documents that have been written by a single author or by multiple authors with a similar calligraphy. This problem requires a visual signature that is robust to image artifacts, flexible to accommodate script variations and efficient to retrieve information in a rapid manner. For this, we have developed a set of word spotting methods that on their foundation use the well known Bag-of-Visual-Words (BoVW) representation. This representation has gained popularity among the document image analysis community to characterize handwritten words in unsupervised manner. However, most approaches on this field rely on a basic BoVW configuration and disregard complex encoding and spatial representations. We determine which BoVW configurations provide the best performance boost to the spotting system. Then, we extend the segmentation-based word spotting, where word candidates are given a priori, to segmentation-free spotting. The proposed approach seeds the document images with overlapping word location candidates and characterizes them with a BoVW signature. Retrieval is achieved comparing the query and candidate signatures and returning the locations that provide a higher consensus. This is a simple but powerful approach that requires a more compact signature than in a segmentation-based scenario. We first project the BoVW signature into a reduced semantic topics space and then compress it further using Product Quantizers. The resulting signature only requires a few dozen bytes, allowing us to index thousands of pages on a common desktop computer. The final system still yields a performance comparable to the state-of-the-art despite all the information loss during the compression phases. We also study how to combine different modalities of information in order to create a query-by-X spotting system where, words are indexed using an information modality and queries are retrieved using another. We consider three different information modalities: visual, textual and audio. Our proposal is to create a latent feature space where features which are semantically related are projected onto the same topics. Creating thus a new feature space where information from different modalities can be compared. The codebooks used to encode the BoVW signatures are usually created using an unsupervised clustering algorithm and, they require to test multiple parameters to determine which configuration is best for a certain document collection. We propose a semantic clustering algorithm which allows to estimate the best parameter from data. Since gather annotated data is costly, we use synthetically generated word images. The resulting codebook is database agnostic, i.e. a codebook that yields a good performance on document collections that use the same script. We also propose the use of an additional codebook to approximate descriptors and reduce the descriptor encoding complexity to sub-linear. Finally, we focus on the problem of signatures dimensionality. We propose a new symbol probability signature where each bin represents the probability that a certain symbol is present a certain location of the word image. This signature is extremely compact and combined with compression techniques can represent word images with just a few bytes per signature.

Keywords

Detecció de paraules; Detección de palabras; Word spotting; Documents històrics manuscrits; Documentos históricos manuscritos; Historical handwritten documents; Representació eficient de dades; Representación eficiente de datos; Efficient data representation

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Tecnologies

Documents

dam1de1.pdf

17.31Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

This item appears in the following Collection(s)