Deep Metric Learning for re-identification, tracking and hierarchical novelty detection

Author

Ruiz López, Idoia

Director

Serrat Gual, Joan

Date of defense

2022-07-27

Pages

126 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

L'aprenentatge de mètriques es refereix al problema de l'aprenentatge automàtic d'aprendre una mesura de distància o similitud amb l'objectiu de comparar dades. En particular, l'aprenentatge de mètriques profund implica aprendre una representació de les imatges tals que al seu subespai les mostres de dades es poden comparar en funció de la distància, proporcionant directament una mesura de similitud. Aquest pas és necessari per a resoldre diverses tasques en visió artificial. Permet realitzar la classificació d'imatges, regions o píxels, reidentificació, detecció de mostres que no pertanyen a la distribució, seguiment d'objectes en seqüències d'imatges i qualsevol altra tasca que requereixi calcular una mesura de similitud. Aquesta tesi aborda tres problemes específics que comparteixen aquest requisit comú. El primer és la reidentificació de persones. En essència, és una tasca de recuperació d'imatges que té com a objectiu trobar instàncies de la mateixa persona basant-se en una mesura de similitud. Primer comparem, en termes de precisió i eficiència, l'aprenentatge de mètriques clàssic contra mètodes bàsics d'aprenentatge profund per a aquest problema. En aquest context, també estudiem la destil·lació de xarxes com una estratègia per a optimitzar l'intercanvi entre precisió i velocitat d'inferència. El segon problema al qual contribuïm és la detecció de novetats en la classificació d'imatges. Consisteix en detectar mostres de classes noves, és a dir, mai vistes durant l'entrenament. No obstant això, la detecció de novetats estàndard no proporciona cap informació sobre les mostres desconegudes més enllà que ho són. Amb la finalitat d'obtenir resultats més informatius, aprofitem les taxonomies jeràrquiques presents de manera natural en les classes. El nostre enfocament basat en l'aprenentatge de mètriques aprofita les relacions jeràrquiques entre les classes durant l'entrenament, podent predir la classe pare en la jerarquia d'una mostra desconeguda. La nostra tercera contribució és el seguiment i la segmentació de múltiples objectes. Aquesta tasca conjunta comprèn classificació, detecció, segmentació d'instàncies i seguiment. El seguiment es pot formular com un problema de recuperació que s'abordarà amb aprenentatge de mètriques. Abordem una dificultat existent en la recerca acadèmica, que és la falta de bases de dades anotades per a aquesta tasca. Introduïm el problema del seguiment i segmentació de múltiples objectes feblement supervisat, enfrontant-nos al desafiament de no tenir anotacions disponibles per a la segmentació d'instàncies. Proposem una estratègia sinèrgica d'entrenament que es beneficia del coneixement extret de les tasques supervisades que s'estan aprenent simultàniament.


El aprendizaje de métricas se refiere al problema del aprendizaje automático de aprender una medida de distancia o similitud con el objetivo de comparar datos. En particular, el aprendizaje de métricas profundo implica aprender una representación de las imágenes tales que en su subespacio las muestras de datos se pueden comparar en función de la distancia, proporcionando directamente una medida de similitud. Este paso es necesario para realizar varias tareas en visión artificial. Permite realizar la clasificación de imágenes, regiones o píxeles, reidentificación, detección de muestras que no pertenecen a la distribución, seguimiento de objetos en secuencias de imágenes y cualquier otra tarea que requiera calcular una medida de similitud. Esta tesis aborda tres problemas específicos que comparten este requisito común. El primero es la reidentificación de personas. En esencia, es una tarea de recuperación de imágenes que tiene como objetivo encontrar instancias de la misma persona en base a una medida de similitud. Primero comparamos, en términos de precisión y eficiencia, el aprendizaje de métricas clásico contra métodos básicos de aprendizaje profundo para este problema. En este contexto, también estudiamos la destilación de redes como una estrategia para optimizar el intercambio entre precisión y velocidad de inferencia. El segundo problema al que contribuimos es la detección de novedades en la clasificación de imágenes. Consiste en detectar muestras de clases nuevas, es decir, nunca vistas durante el entrenamiento. Sin embargo, la detección de novedades estándar no proporciona ninguna información sobre las muestras desconocidas más allá de que lo son. Con el fin de obtener resultados más informativos, aprovechamos las taxonomías jerárquicas presentes de forma intrínseca en las clases. Nuestro enfoque basado en el aprendizaje de métricas aprovecha las relaciones jerárquicas entre las clases durante el entrenamiento, pudiendo predecir la clase padre en la jerarquía de una muestra desconocida. Nuestra tercera contribución es el seguimiento y la segmentación de múltiples objetos. Esta tarea conjunta comprende clasificación, detección, segmentación de instancias y seguimiento. El seguimiento se puede formular como un problema de recuperación que se abordará con aprendizaje de métricas. Abordamos una dificultad existente en la investigación académica, que es la falta de bases de datos anotados para esta tarea. Introducimos el problema del seguimiento y segmentación de múltiples objetos débilmente supervisado, enfrentándonos al desafío de no tener anotaciones disponibles para la segmentación de instancias. Proponemos una estrategia sinérgica de entrenamiento que se beneficia del conocimiento extraído de las tareas supervisadas que se están aprendiendo simultáneamente.


Metric learning refers to the problem in machine learning of learning a distance or similarity measurement to compare data. In particular, deep metric learning involves learning a representation, also referred to as embedding, such that in the embedding space data samples can be compared based on the distance, directly providing a similarity measure. This step is necessary to perform several tasks in computer vision. It allows to perform the classification of images, regions or pixels, re-identification, out-of-distribution detection, object tracking in image sequences and any other task that requires computing a similarity score for their solution. This thesis addresses three specific problems that share this common requirement. The first one is person re-identification. Essentially, it is an image retrieval task that aims at finding instances of the same person according to a similarity measure. We first compare in terms of accuracy and efficiency, classical metric learning to basic deep learning based methods for this problem. In this context, we also study network distillation as a strategy to optimize the trade-off between accuracy and speed at inference time. The second problem we contribute to is novelty detection in image classification. It consists in detecting samples of novel classes, i.e. never seen during training. However, standard novelty detection does not provide any information about the novel samples besides they are unknown. Aiming at more informative outputs, we take advantage from the hierarchical taxonomies that are intrinsic to the classes. We propose a metric learning based approach that leverages the hierarchical relationships among classes during training, being able to predict the parent class for a novel sample in such hierarchical taxonomy. Our third contribution is in multi-object tracking and segmentation. This joint task comprises classification, detection, instance segmentation and tracking. Tracking can be formulated as a retrieval problem to be addressed with metric learning approaches. We tackle the existing difficulty in academic research that is the lack of annotated benchmarks for this task. To this matter, we introduce the problem of weakly supervised multi-object tracking and segmentation, facing the challenge of not having available ground truth for instance segmentation. We propose a synergistic training strategy that benefits from the knowledge of the supervised tasks that are being learnt simultaneously.

Keywords

Aprenentatge de mètriques; Aprendizaje de métricas; Metric learning; Visió per computador; Visión por computador; Computer vision; Aprenentatge profund; Aprendizaje profundo; Deep learning

Subjects

004 - Computer science and technology. Computing. Data processing

Documents

irl1de1.pdf

13.01Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)