Alignement de données 2D, 3D et applications en réalité augmentée

Author

El Rhabi, Youssef

Director

Brun, Luc

Codirector

Lladós, Lladós

Date of defense

2017-06-12

ISBN

9788449072376

Pages

138 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament de Ciències de la Computació

Abstract

Aquesta tesi s’emmarca en el context de la realitat augmentada. La problemàtica més gran consisteix en l’estimació de la posició de la càmera en temps real. Aquesta estimació s’ha de fer seguint tres criteris principals: precisió, robustesa i eficiència computacional. En el marc d’aquesta tesi, establim alguns mètodes que permetin un millor ús de les primitives de les imatges. En el nostre cas, les primitives de les imatges són els punts característics. Per aconseguir aquest objectiu, ens basem en la textura d’aquesta imatge. Primerament, establim una arquitectura que faciliti una estimació de la posició més ràpida, sense pèrdua de precisió o robustesa. Aquesta arquitectura es basa en la utilització de la informació recollida durant una fase offline, en la qual reconstruïm l’escena en 3D. Utilitzem tota aquesta informació per a construir un graf de veïnatge dins de les imatges de la base de dades. Aquest graf de veïnatge ens permet seleccionar les imatges més rellevants per tal de calcular la posició de la càmera de manera més eficaç. En tant que els processos de descripció i matching no són prou ràpids, s’han optimitzat els càlculs, la qual cosa ens ha portat a proposar el nostre propi descriptor. Amb aquesta finalitat, hem construït un esquema genèric basat en la teoria de la informació la qual engloba una bona part dels descriptors binaris, inclòs el recent descriptor anomenat BOLD. El nostre objectiu ha estat, com per a BOLD, incrementar l’estabilitat dels descriptors produïts en els canvis d’orientació. Per aconseguir-ho, hem dissenyat un nou esquema de selecció offline que s’adapta millor al procés de matching online, que ens permet integrar les millores al descriptor que hem construït. Tot això ens permet millorar les actuacions del descriptor especialment en termes de rapidesa en comparació amb els descriptors de l’estat de l’art. En aquesta tesi descrivim diversos mètodes utilitzats per a estimar la posició de la càmera més eficientment. Dels resultats del treball n’han sorgit dues publicacions (una nacional i una altra internacional) així com una sol·licitud de patent. Realitat augmentada: SFM,SLAM, estimació de la posició a temps real, descriptors basats en punts característics, aprenentatge, enregistrament 2D/3D


Cette thèse s’inscrit dans le contexte de la réalité augmentée (RA). La problématique majeure consiste à calculer la pose d’une caméra en temps réel. Ce calcul doit être effectué en respectant trois critères principaux : précision, robustesse et rapidité. Dans le cadre de cette thèse, nous introduisons certaines méthodes permettant d’exploiter au mieux les primitives des images. Dans notre cas, les primitives sont des points que nous allons détecter puis décrire dans une image. Pour ce faire, nous nous basons sur la texture de cette image. Nous avons dans un premier temps mis en place une architecture favorisant le calcul rapide de la pose, sans perdre en précision ni en robustesse. Nous avons pour cela exploité une phase hors ligne, où nous reconstruisons la scène en 3D. Nous exploitons les informations que nous obtenons lors de cette phase hors ligne afin de construire un arbre de voisinage. Cet arbre lie les images de la base de données entre elles. Disposer de cet arbre nous permet de calculer la pose de la caméra plus efficacement en choisissant les images de la base de données jugées les plus pertinentes. Nous rendant compte que la phase de description et de comparaison des primitives n’est pas suffisamment rapide, nous en avons optimisé les calculs. Cela nous a mené jusqu’à proposer notre propre descripteur. Pour cela, nous avons dressé un schéma générique basé sur la théorie de l’information qui englobe une bonne part des descripteurs binaires, y compris un descripteur récent nommé BOLD [BTM15]. Notre objectif a été, comme pour BOLD, d’augmenter la stabilité aux changements d’orientation du descripteur produit. Afin de réaliser cela, nous avons construit un nouveau schéma de sélection hors ligne plus adapté à la procédure de mise en correspondance en ligne. Cela permet d’intégrer ces améliorations dans le descripteur que nous construisons. Procéder ainsi permet d’améliorer les performances du descripteur notamment en terme de rapidité en comparaison avec les descripteurs de l’état de l’art. Nous détaillons dans cette thèse les différentes méthodes que nous avons mises en place afin d’optimiser l’estimation de la pose d’une caméra. Nos travaux ont fait l’objet de 2 publications (1 nationale et 1 internationale) et d’un dépôt de brevet. Réalité augmentée: SFM,SLAM, estimation de pose temps réel, description, apprentissage, recalage 2D/3D


This thesis belongs within the context of augmented reality. The main issue resides in estimating a camera pose in real-time. This estimation should be done following three main criteria: precision, robustness and computation efficiency. In the frame of this thesis we established methods enabling better use of image primitives. As far as we are concerned, we limit ourselves to keypoint primitives. We first set an architecture enabling faster pose estimation without loss of precision or robustness. This architecture is based on using data collected during an offline phase. This offline phase is used to construct a 3D point cloud of the scene. We use those data in order to build a neighbourhood graph within the images in the database. This neighbourhood graph enables us to select the most relevant images in order to compute the camera pose more efficiently. Since the description and matching processes are not fast enough with SIFT descriptor, we decided to optimise the bottleneck parts of the whole pipeline. It led us to propose our own descriptor. Towards this aim, we built a framework encompassing most recent binary descriptors including a recent state-of-the-art one named BOLD. We pursue a similar goal to BOLD, namely to increase the stability of the produced descriptors with respect to rotations. To achieve this goal, we have designed a novel offline selection criterion which is better adapted to the online matching procedure introduced in BOLD. In this thesis we introduce several methods used to estimate camera poses more efficiently. Our work has been distinguished by two publications (a national and an international one) as well as with a patent application. Augmented Reality: SFM, SLAM, real time pose computation, keypoint description, Machine learning, 2D/3D registration

Keywords

Estimació posició temps real; Estimación posición tiempo real; Time pose computation; Descirptors basats en punts característics; Descriptores basado en puntos característicos; Heypoint description; Enregistrament 2D/3D; Registro 2D/3D; 2D/3D registration

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Tecnologies

Documents

yer1de1.pdf

2.154Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)