Document Image Enhancement and Recognition in Low Resource Scenarios: Application to Ciphers and Handwritten Text

Author

Souibgui, Mohamed Ali

Director

Fornés Bisquerra, Alicia

Yousri, Kassentini

Tutor

Lladós, Josep

Date of defense

2022-12-01

Pages

209 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

En aquesta tesi proposem diferents contribucions per tal de millorar i reconèixer imatges de documents manuscrits històrics, especialment aquells amb escriptures rares, com els documents xifrats. A la primera part es presenten alguns models efectius d’extrem a extrem per millorar imatges de documents utilitzant models d’aprenentatge profund. En primer lloc, s’exploren xarxes adversàries generatives (cGAN) per a diferents tasques (neteja de documents, binarització, desenfocament i eliminació de marques d’aigua). A continuació, millorem els resultats recuperant les imatges de documents degradats en un format llegible mitjançant la integració d’un reconeixedor de text al model cGAN. Posteriorment, presentem una nova arquitectura de codificador-decodificador basada en transformers per millorar les imatges de documents impresos i manuscrits, de manera integral. La segona part de la tesi aborda el reconeixement de text manuscrit (HTR) en escenaris de baixos recursos, és a dir, quan només hi ha disponibles poques dades etiquetades d’entrenament. Proposem mètodes nous per reconèixer documents xifrats amb alfabets rars. En primer lloc, es proposa un mètode basat en mètodes de poques dades (few-shot) per detectar objectes. Després, incorporem una estratègia d’aprenentatge progressiu que assigna automàticament pseudoetiquetes a un conjunt de dades sense etiquetar per reduir el treball humà d’anotar algunes pàgines mentre es manté el bon rendiment del model. En segon lloc, es proposa una tècnica de generació de dades basada en l’aprenentatge de programes bayesians (BPL) per superar la manca de dades en alfabets rars. En tercer lloc, proposem un autoencoder invariable a la degradació de text. Aquest darrer model autosupervisat està dissenyat per abordar dues tasques, el reconeixement de text i la millora de la imatge del document. El model proposat no presenta les limitacions dels mètodes anteriors basats en contrastive losses, mentre que alhora requereix \textit{substancialment} menys mostres de dades per convergir. A la tercera part de la tesi analitzem, des de la perspectiva de l’usuari, l’ús de sistemes HTR a escenaris de baixos recursos. Això contrasta amb la investigació habitual sobre HTR, que sovint se centra només en aspectes tècnics i poques vegades dedica esforços a implementar eines de programari per a acadèmics en Humanitats.


En esta tesis proponemos diferentes contribuciones con el objetivo de mejorar y reconocer imágenes de documentos manuscritos históricos, especialmente aquellos con escrituras raras, como los documentos cifrados. En la primera parte, se presentan algunos modelos efectivos de extremo a extremo para la mejora de imágenes de documentos utilizando modelos de aprendizaje profundo. En primer lugar, se exploran las redes adversarias generativas (cGAN) para diferentes tareas (limpieza de documentos, binarización, desenfoque y eliminación de marcas de agua). A continuación, mejoramos los resultados recuperando las imágenes de documentos degradados en un formato legible mediante la integración de un reconocedor de texto en el modelo cGAN. Posteriormente, presentamos una nueva arquitectura de codificador-decodificador basada en transformers para mejorar las imágenes de documentos impresos y escritos a mano, de manera integral. La segunda parte de la tesis aborda el reconocimiento de texto escrito a mano (HTR) en escenarios de bajos recursos, es decir, cuando solo hay disponibles pocos datos etiquetados de entrenamiento. Proponemos métodos novedosos para reconocer cifrados con alfabetos raros. En primer lugar, se propone un método basado en métodos de pocos datos (few-shot) para detección de objetos. Luego, incorporamos una estrategia de aprendizaje progresivo que asigna automáticamente pseudoetiquetas a un conjunto de datos sin etiquetar para reducir el trabajo humano de anotar algunas páginas mientras se mantiene el buen rendimiento del modelo. En segundo lugar, se propone una técnica de generación de datos basada en el aprendizaje de programas bayesianos (BPL) para superar la falta de datos en alfabetos raros. En tercer lugar, proponemos un autoencoder invariable a la degradación de texto. Este último modelo autosupervisado está diseñado para abordar dos tareas, el reconocimiento de texto y la mejora de la imagen del documento. El modelo propuesto no presenta limitaciones de los métodos anteriores basados en contrastive losses, mientras que al mismo tiempo requiere sustancialmente menos muestras de datos para converger. En la tercera parte de la tesis analizamos, desde la perspectiva del usuario, el uso de sistemas HTR en escenarios de bajos recursos. Esto contrasta con la investigación habitual sobre HTR, que a menudo se centra solo en aspectos técnicos y rara vez dedica esfuerzos a implementar herramientas de software para académicos en Humanidades.


In this thesis, we propose different contributions with the goal of enhancing and recognizing historical handwritten document images, especially the ones with rare scripts, such as cipher documents. In the first part, some effective end-to-end models for Document Image Enhancement (DIE) using deep learning models were presented. First, Generative Adversarial Networks (cGAN) for different tasks (document clean-up, binarization, deblurring, and watermark removal) were explored. Next, we further improve the results by recovering the degraded document images into a clean and readable form by integrating a text recognizer into the cGAN model to promote the generated document image to be more readable. Afterwards, we present a new encoder-decoder architecture based on vision transformers to enhance both machine-printed and handwritten document images, in an end-to-end fashion. The second part of the thesis addresses Handwritten Text Recognition (HTR) in low resource scenarios, i.e. when only few labeled training data is available. We propose novel methods for recognizing ciphers with rare scripts. First, a few-shot object detection based method was proposed. Then, we incorporate a progressive learning strategy that automatically assigns pseudo-labels to a set of unlabeled data to reduce the human labor of annotating few pages while maintaining the good performance of the model. Secondly, a data generation technique based on Bayesian Program Learning (BPL) is proposed to overcome the lack of data in such rare scripts. Thirdly, we propose a Text-Degradation Invariant Auto Encoder (Text-DIAE). This latter self-supervised model is designed to tackle two tasks, text recognition and document image enhancement. The proposed model does not exhibit limitations of previous state-of-the-art methods based on contrastive losses, while at the same time, it requires substantially fewer data samples to converge. In the third part of the thesis we analyze, from the user perspective, the usage of HTR systems in low resource scenarios. This contrasts with the usual research on HTR, which often focuses on technical aspects only and rarely devotes efforts on implementing software tools for scholars in Humanities.

Keywords

Anàlisi de documents històrics; Análisis de documentos históricos; Historical document analysis; Millora d’imatges; Mejora de imágenes; Document image enhancement; Reconeixement de text manuscrit; Reconocimiento de texto manuscrito; Handwritten text recognition

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Ciències Socials

Documents

mas1de1.pdf

25.33Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

This item appears in the following Collection(s)