Leveraging Scene Text Information for Image Interpretation

Author

Mafla Delgado, Andrés Patricio

Director

Gomez Bigorda, Luis

Karatzas, Dimosthenis

Date of defense

2022-11-21

Pages

182 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

Fins fa poc, la majoria dels models de visió per computador seguien sent analfabets, ignorant en gran mesura la informació explícita i semànticament rica continguda com a text d’escena. El progrés recent en la detecció i reconeixement de text d’escena ha permès recentment explorar el seu paper en un conjunt divers de problemes oberts de visió per computador, p. classificació d’imatges, recuperació de text d’imatges, subtítols d’imatges i resposta visual a preguntes, per nomenar-ne alguns. La semàntica explícita del text de l’escena requereix un modelatge específic similar al llenguatge. Tot i això, el text de l’escena és un senyal particular que s’ha d’interpretar d’acord amb una perspectiva integral que encapsuli tots els senyals visuals en una imatge. Incorporar aquesta informació és una tasca senzilla per als humans, però si no estem familiaritzats amb un idioma o escriptura, és impossible assolir una comprensió completa del món (per exemple, visitar un país estranger amb un alfabet diferent). Tot i la importància del text de l’escena, modelar-lo requereix considerar les diverses formes en què el text de l’escena interactua amb una imatge, processant i fusionant una modalitat addicional. En aquesta tesi ens centrem principalment en dues tasques, la classificació d’imatges de granularitat fina basada en text d’escena i la recuperació multimodal. En totes dues tasques estudiades identifiquem les limitacions existents als enfocaments actuals i proposem solucions plausibles. Concretament, a cada capítol: i) Definim una forma compacta de respresentar text d’escena que es generalitza a paraules invisibles en temps d’entrenament mentre es realitza en temps real. ii) Incorporem la representació de text d’escena prèviament apresa per crear un descriptor de nivell d’imatge que supera els errors de reconeixement òptic de caràcters (OCR) que s’adapten bé a la tasca de classificació d’imatges de gra fi. iii) Dissenyem una xarxa de raonament a nivell de regió que aprèn la interacció a través de la semàntica entre regions visuals excel·lents i instàncies de text d’escena. iv) Fem servir informació de text d’escena a la coincidència d’imatge i text i introduïm la tasca stacmr de recuperació Cross-Modal conscient de text d’escena. Recopilem un conjunt de dades que incorpora el text de l’escena i dissenyem un model adequat per a la modalitat estudiada recentment. v) Identifiquem els inconvenients de les mètriques de recuperació actuals a la recuperació multimodal. Es proposa una mètrica de subtítols d’imatges com una forma d’avaluar millor la semàntica en els resultats recuperats. Una àmplia experimentació mostra que la incorporació de la dita semàntica en un model produeix millors resultats semàntics i requereix una quantitat significativament menor de dades per convergir.


Hasta hace poco, la mayoría de los modelos de visión por computadora seguían siendo analfabetos, ignorando en gran medida la información explícita y semánticamente rica contenida como texto de escena. El progreso reciente en la detección y el reconocimiento de texto de escena ha permitido recientemente explorar su papel en un conjunto diverso de problemas abiertos de visión por computadora, ej. clasificación de imágenes, recuperación de texto de imágenes, subtítulos de imágenes y respuesta visual a preguntas, por nombrar algunos. La semántica explícita del texto de la escena requiere un modelado específico similar al lenguaje. Sin embargo, el texto de la escena es una señal particular que debe interpretarse de acuerdo con una perspectiva integral que encapsule todas las señales visuales en una imagen. Incorporar esta información es una tarea sencilla para los humanos, pero si no estamos familiarizados con un idioma o escritura, es imposible lograr una comprensión completa del mundo (por ejemplo, visitar un país extranjero con un alfabeto diferente). A pesar de la importancia del texto de la escena, modelarlo requiere considerar las diversas formas en que el texto de la escena interactúa con una imagen, procesando y fusionando una modalidad adicional. En esta tesis, nos centramos principalmente en dos tareas, la clasificación de imágenes de granularidad fina basada en texto de escena y la recuperación multimodal. En ambas tareas estudiadas identificamos las limitaciones existentes en los enfoques actuales y proponemos soluciones plausibles. Concretamente, en cada capítulo: i) Definimos una forma compacta de representar texto de escena que se generaliza a palabras no vistas en el entrenamiento, mientras su inferencia es realizada a tiempo real. ii) Incorporamos la representación de texto de escena previamente aprendida para crear un descriptor de nivel de imagen que supera los errores de reconocimiento óptico de caracteres (OCR) que se adapta bien a la tarea de clasificación de imágenes de grano fino. iii) Diseñamos una red de razonamiento a nivel de región que aprende la interacción a través de la semántica entre regiones visuales sobresalientes e instancias de texto de escena. iv) Empleamos información de texto de escena en la coincidencia de imagen y texto e introducimos la tarea de recuperación Cross-Modal consciente de texto de escena stacmr. Recopilamos un conjunto de datos que incorpora el texto de la escena y diseñamos un modelo adecuado para la modalidad recién estudiada. v) Identificamos los inconvenientes de las métricas de recuperación actuales en la recuperación multimodal. Se propone una métrica de subtítulos de imágenes como una forma de evaluar mejor la semántica en los resultados recuperados. Una amplia experimentación muestra que la incorporación de dicha semántica en un modelo produce mejores resultados semánticos y requiere una cantidad significativamente menor de datos para converger.


Until recently, most computer vision models remained illiterate, largely ignoring the semantically rich and explicit information contained as scene text. Recent progress in scene text detection and recognition has recently allowed exploring its role in a diverse set of open computer vision problems, e.g. image classification, image-text retrieval, image captioning, and visual question answering to name a few. The explicit semantic of scene text closely requires specific modeling similar to language. However, scene text is a particular signal that has to be interpreted according to a comprehensive perspective that encapsulates all the visual cues in an image. Incorporating this information is a straightforward task for humans, but if we are unfamiliar with a language or scripture, achieving a complete world understanding is impossible (e.a. visiting a foreign country with a different alphabet). Despite the importance of scene text, modeling it requires considering the several ways in which scene text interacts with an image, processing and fusing an additional modality. In this thesis, we mainly focus on two tasks, scene text-based fine-grained image classification, and cross-modal retrieval. In both studied tasks we identify existing limitations in current approaches and propose plausible solutions. Concretely, in each chapter: i) We define a compact way to embed scene text that generalizes to unseen words at training time while performing in real-time. ii) We incorporate the previously learned scene text embedding to create an image-level descriptor that overcomes optical character recognition (OCR) errors which is well-suited to the fine-grained image classification task. iii) We design a region-level reasoning network that learns the interaction through semantics among salient visual regions and scene text instances. iv) We employ scene text information in image-text matching and introduce the Scene Text Aware Cross-Modal retrieval stacmr task. We gather a dataset that incorporates scene text and design a model suited for the newly studied modality. v) We identify the drawbacks of current retrieval metrics in cross-modal retrieval. An image captioning metric is proposed as a way of better evaluating semantics in retrieved results. Ample experimentation shows that incorporating such semantics into a model yields better semantic results while requiring significantly fewer data to converge.

Keywords

Visió per computador; Visión por computador; Computer vision; Reconeixament de patrons; Reconocimiento de patrones; Pattern recognition; Aprenentatge profund; Aprendizaje profundo; Deep learning

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Ciències Experimentals

Documents

amd1de1.pdf

45.33Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

This item appears in the following Collection(s)