Instance-level recognition for image understanding

llistat de metadades

Director

Marqués Acosta, Fernando

Varas González, David

Date of defense

2025-06-30

Pages

98 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions

Doctorate programs

DOCTORAT EN TEORIA DEL SENYAL I COMUNICACIONS (Pla 2013)

Abstract

(English) Image understanding is a fundamental task in computer vision as it aims to enable machines to visually comprehend the real world. In this thesis, the task of image understanding is addressed through the combination of instance-level recognition systems and Large Multimodal Models (LMMs). To do so, the thesis is structured in three parts, starting with a study of deep metric learning techniques for creating rich image embeddings spaces. Then, the implementation of instance-level recognition systems specifically focused on landmark recognition using content-based image retrieval. And finally, enhance the capabilities of LMMs by incorporating instance-level recognition results in order to generate improved image descriptions with instances. The first part of this thesis focuses on advancing deep metric learning methods. A novel Smooth Proxy-Anchor Loss is proposed to address the problem of having noisy labels in training data. The proposed loss introduces confidence-based sample weighting, soft proxy assignment, and adaptive margins to mitigate the negative impact of mislabeled samples, demonstrating superior performance on real-world data. Building on top of this foundation, the thesis extends the selective weighting of samples to a selective weighting of features, through the Generalized Local Attention Pooling (GLAP) method. GLAP dynamically weights different regions of feature maps according to their informational content, enabling better representation learning while reducing computational requirements. Evaluations on multiple benchmark datasets show the significant improvements of using GLAP over state-of-the-art approaches. The second part introduces the Multi-Scale Transformer-based Feature Combination (MSTFC) method for instance-level landmark recognition. This approach applies a transformer-based attention mechanisms to select and combine relevant information from feature maps. These feature maps are extracted from multiple scales and have different spatial resolutions. The combination of these multi-scale feature maps results in a compact global representation that is used for image retrieval. The MSTFC method achieves a superior performance on the challenging landmark retrieval datasets, outperforming existing approaches on the Google Landmarks Dataset v2 and the Revisiting Oxford and Paris benchmarks. Finally, the thesis explores the enhancement of Large Multimodal Models by incorporating instance-level recognition results to generate more accurate and detailed image descriptions. By bridging specialized instance-level recognition systems with the generic understanding capabilities of LMMs, this integration demonstrates how domain-specific computer vision techniques can be combined with multimodal techniques for comprehensive image understanding. Through these contributions, the thesis advances the field of image understanding across multiple levels, from robust feature learning in real-world noisy dataset, to effective techniques for combining the information of feature maps in deep metric learning, then expanded to multi-scale representation for instance-level recognition, and ultimately to the integration of specialized instance-level systems with modern multimodal frameworks.


(Català) La comprensió d'imatges és una tasca fonamental en visió per computador, ja que el seu objectiu és permetre que les màquines comprenguin visualment el món real. En aquesta tesi, la tasca de comprensió s'aborda mitjançant la combinació de sistemes de reconeixement a nivell d'instància i Large Multimodal Models (LMMs). Per fer-ho, la tesi s'estructura en tres parts, començant amb un estudi de tècniques d'aprenentatge mètric profund per crear espais rics d'embeddings d'imatges. Tot seguit, la implementació de sistemes de reconeixement a nivell d'instància centrats específicament en el reconeixement de punts de referència utilitzant la recuperació d'imatges basades en contingut. I, finalment, millorar les capacitats dels LMM incorporant resultats de reconeixement a nivell d'instància per generar descripcions d'imatges millorades amb aquestes instàncies. La primera part d’aquesta tesi es centra en avançar els mètodes d'aprenentatge mètric profund. Es proposa la nova Smooth Proxy-Anchor Loss per abordar el problema de tenir etiquetes sorolloses a les dades d'entrenament. La proposta introdueix la ponderació de la mostra basada en un valor de confiança, l'assignació suau de proxis i els marges adaptatius per mitigar l'impacte negatiu de les mostres mal etiquetades, demostrant un rendiment superior en les dades del món real. Sobre aquesta base, la tesi extén la ponderació selectiva de mostres a una ponderació selectiva de característiques, a través del mètode de Generalized Local Attention Pooling (GLAP). GLAP pondera dinàmicament diferents regions de mapes de característiques d'acord amb el seu contingut informatiu, cosa que permet un millor aprenentatge de representacions alhora que redueix els requisits computacionals. Les avaluacions a múltiples conjunts de dades de referència mostren les millores significatives de l'ús de GLAP sobre els enfocaments d'avantguarda. La segona part introdueix el mètode de Multi-Scale Transformer-based Feature Combination (MSTFC) per al reconeixement de punts de referència a nivell d'instància. Aquest enfocament aplica mecanismes d’atenció basats en transformers per seleccionar i combinar informació rellevant de mapes de característiques. Aquests mapes de característiques s'extreuen de múltiples escales i tenen diferents resolucions espaials. La combinació d’aquests mapes de característiques de múltiples escales dóna com a resultat una representació global compacta que s’utilitza per a la recuperació d’imatges. El mètode MSTFC aconsegueix un rendiment superior en els desafiants conjunts de dades de recuperació de punts de referència, superant els enfocaments existents al conjunt de dades de Google Landmarks v2 i Revisiting Oxford and Paris. Finalment, la tesi explora la millora dels grans models multimodals mitjançant la incorporació de resultats de reconeixement a nivell d'instància per generar descripcions d'imatges més precises i detallades. En unir els sistemes especialitzats de reconeixement a nivell d'instància amb les capacitats de comprensió genèrica dels LMM, aquesta integració demostra com les tècniques de visió per computador específiques del domini es poden combinar amb tècniques multimodals per a una comprensió integral de la imatge. A través d'aquestes contribucions, la tesi avança en el camp de la comprensió de la imatge en múltiples nivells, des del sòlid aprenentatge de característiques en conjunts de dades sorolloses del món real, fins a tècniques efectives per combinar la informació de mapes de característiques en l'aprenentatge mètric profund, després expandit a la representació multiescalar per al reconeixement a nivell d'instància i, en última instància, a la integració de sistemes especialitzats a nivell d'instància amb marcs multimodals moderns.


(Español) La comprensión de imágenes es una tarea fundamental en visión por computador, ya que su objetivo es permitir a las máquinas comprender visualmente el mundo real. En esta tesis, la tarea de comprensión se aborda mediante la combinación de sistemas de reconocimiento a nivel de instancia y Large Multimodal Models (LMMs). Para ello, la tesis se estructura en tres partes, comenzando con un estudio de técnicas de aprendizaje métrico profundo para la creación de espacios de embeddings de imágenes ricos. A continuación, la implementación de sistemas de reconocimiento a nivel de instancia centrados específicamente en el reconocimiento de puntos de referencia utilizando la recuperación de imágenes basada en contenido. Y por último, mejorar las capacidades de los LMM incorporando resultados de reconocimiento a nivel de instancia para generar descripciones de imágenes mejoradas con las instancias. La primera parte de esta tesis se centra en avanzar en métodos de aprendizaje métrico profundo. Se propone la nueva Smooth Proxy-Anchor Loss para abordar el problema de tener etiquetas ruidosas en los datos de entrenamiento. La loss propuesta introduce la ponderación de la muestra basada en una valor de confianza, la asignación suave de proxis y los márgenes adaptativos para mitigar el impacto negativo de las muestras mal etiquetadas, demostrando un rendimiento superior en los datos del mundo real. Sobre esta base, la tesis extiende la ponderación selectiva de muestras a una ponderación selectiva de características, a través del método de Generalized Local Attention Pooling (GLAP). GLAP pondera dinámicamente diferentes regiones de mapas de características de acuerdo con su contenido informativo, lo que permite un mejor aprendizaje de representaciones a la vez que reduce los requisitos computacionales. Las evaluaciones en múltiples conjuntos de datos de referencia muestran las mejoras significativas del uso de GLAP sobre los enfoques de vanguardia. La segunda parte introduce el método de Multi-Scale Transformer-based Feature Combination (MSTFC) para el reconocimiento de puntos de referencia a nivel de instancia. Este enfoque aplica mecanismos de atención basados en transformers para seleccionar y combinar información relevante de mapas de características. Estos mapas de características se extraen de múltiples escalas y tienen diferentes resoluciones espaciales. La combinación de estos mapas de características de múltiples escalas da como resultado una representación global compacta que se utiliza para la recuperación de imágenes. El método MSTFC logra un rendimiento superior en los desafiantes conjuntos de datos de recuperación de puntos de referencia, superando los enfoques existentes en el conjunto de datos de Google Landmarks v2 y Revisiting Oxford and Paris. Finalmente, la tesis explora la mejora de los grandes modelos multimodales mediante la incorporación de resultados de reconocimiento a nivel de instancia para generar descripciones de imágenes más precisas y detalladas. Al unir los sistemas especializados de reconocimiento a nivel de instancia con las capacidades de comprensión genérica de los LMM, esta integración demuestra cómo las técnicas de visión por computador específicas del dominio se pueden combinar con técnicas multimodales para una comprensión integral de la imagen. A través de estas contribuciones, la tesis avanza en el campo de la comprensión de la imagen en múltiples niveles, desde el sólido aprendizaje de características en conjuntos de datos ruidosos del mundo real, hasta técnicas efectivas para combinar la información de mapas de características en el aprendizaje métrico profundo, luego se expandió a la representación multiescala para el reconocimiento a nivel de instancia y, en última instancia, a la integración de sistemas especializados a nivel de instancia con marcos multimodales modernos.

Subjects

004 - Informàtica

Note

Tesi amb menció de Doctorat Industrial (Generalitat de Catalunya)

Recommended citation
This citation was generated automatically.

Documents

Llistat documents

TCRM1de1.pdf

19.19Mb

 

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)