Novel deep learning-based indentification methods for accurate, orientation-aware visual detection with application to inspection and quality control

Author

Yao, Kai

Director

Ortiz Rodríguez, Alberto

Bonnín Pascual, Francisco

Tutor

Ortiz Rodríguez, Alberto

Date of defense

2022-06-03

Pages

197 p.



Department/Institute

Universitat de les Illes Balears. Doctorat en Tecnologies de la Informació i les Comunicacions

Abstract

[spa] Los sistemas de visión artificial han surgido como alternativas competitivas en aplicacionesindustriales, siendo potenciadas actualmente en el camino hacia una industriaágil y flexible. Con su capacidad para lograr una alta precisión al tiempo que garantizaun alto rendimiento en la línea de producción, los sistemas de visión artificial tambiénhan ayudado a adoptar procesos de inspección y control de calidad de manera eficiente.En los últimos años, se ha informado que los sistemas de visión artificial que utilizanmetodologías de aprendizaje profundo (DL) pueden lograr un alto rendimiento, produciendodetecciones consistentes y precisas en diversas tareas de visión por computdormediante redes neuronales convolucionales profundas (DCNN).En esta tesis, abordamos los problemas de detección / reconocimiento de objetivosdesde dos puntos de vista diferentes: regresión de cajas circundantes (bounding boxes) ysegmentación semántica, ambos utilizando DCNN. Ambos enfoques se validan mediantedos aplicaciones conectadas con la industria, relacionadas con la inspección visual y elcontrol de calidad. Ambas soluciones intentan producir detecciones eficientes, ya sea pordiseño a través de la regresión de cajas circundantes rotadas, o por medio del etiquetadode píxeles individuales, la forma a través de la que la segmentación semántica se puedeadaptar, por naturaleza, a la forma de los objetos.En la primera parte de esta tesis, se propone una solución para el reconocimientode objetos en dos etapas. En este trabajo, se desarrolla una arquitectura piramidalbasada en el método Single-Shot multi-box Detector, con el objetivo de inferir cajas circundantesno rotadas. Posteriormente, desarrollamos una red de regresión sencilla parainferir las cajas rotadas sobre la base de las cajas no rotadas resultantes de la primeraetapa. En la segunda parte de esta tesis, desarrollamos soluciones de segmentación anivel de píxel que utilizan anotaciones completas y débiles. En cuanto a la solución totalmentesupervisada, entrenamos una red totalmente convolucional utilizando diferentesfunciones de pérdida, con el objetivo de resolver el problema de detección de objetivosde área pequeña. En cuanto al enfoque de segmentación semántica débilmente supervisada,proponemos una función de pérdida novedosa para contrarrestar los efectos delas anotaciones débiles. Por último, probamos varias estrategias simples para combinarla detección de cajas circundantes no orientados con enfoques de segmentación semánticacon el fin de obtener mejor rendimiento en comparación con la aplicación de losdos métodos de forma independiente. Todos los métodos mencionados anteriormente seevalúan utilizando datasets de las dos tareas de visión consideradas en esta tesis. Losresultados obtenidos nos permiten confirmar un rendimiento competitivo por parte delos métodos desarrollados.


[eng] Machine vision systems have emerged as a superior alternative to human labor in industrialapplications, and are still being developed on the way to an agile and flexibleindustry. With its capability to achieve high accuracy while ensuring high throughputon the production line, machine vision systems have also helped to adopt inspectionand quality control processes efficiently. Over the past few years, machine vision systemsmaking use of Deep Learning (DL) methodologies have been reported to be ableto achieve high performance, producing consistent and accurate detections in variousvision tasks by means of Deep Convolutional Neural Networks (DCNN).In this dissertation we approach target detection/recognition problems from two differentpoints of view, namely bounding boxes regression and semantic segmentationusing DCNNs, and validate them by means of two industry-related applications connectedwith visual inspection and quality control. Both solutions try to produce efficientdetections, either by design through regression of rotated bounding boxes, or by meansof individual pixel labelling, the way how semantic segmentation adapts, by nature, tothe shape of the target.In the first part of this thesis, a two-stage solution for object recognition is proposed.In this work, a Feature Pyramid Architecture based on the Single Shot Multi-box Detectoris developed to infer unrotated bounding boxes. Subsequently, a lightweight regressionnetwork is designed to provide the rotated bounding boxes-based detections on thebasis of the resulting unrotated bounding boxes. In the second part of this thesis, pixellevelclassification solutions using full and weak annotations are developed. Regardingthe fully supervised solution, a fully convolutional network is trained using different lossfunctions, what aims at solving the detection problem for small area targets. As for theweakly supervised semantic segmentation approach, a novel loss function is proposedto counteract the effects of weak annotations. At last, we test several simple strategiesto combine the unoriented bounding boxes detection and semantic segmentationapproaches in order to get better performance compared with applying the two methodsindependently. All methods mentioned before are evaluated using datasets from the twovision tasks considered in this dissertation. The results obtained allow us to confirm thecompetitive performance achieved by the methods developed.


[cat] Els sistemes de visió artificial han sorgit com alternatives competitives en aplicacions industrials,sent potenciades actualment en el camí cap a una indústria àgil i flexible. Ambla seva capacitat per aconseguir una alta precisió al temps que garanteix un alt rendimenten la línia de producció, els sistemes de visió artificial també han ajudat a adoptarprocessos d’inspecció i control de qualitat de manera eficient. En els últims anys, s’hainformat que els sistemes de visió artificial que utilitzen metodologies d’aprenentatge profund(DL) poden aconseguir un alt rendiment, produint deteccions consistents i precisesen diverses tasques de visió per computador mitjançant xarxes neuronals convolucionalsprofundes (DCNN).En aquesta tesi, abordem els problemes de detecció / reconeixement d’objectiusdes de dos punts de vista diferents: regressió de caixes circumdants (bounding boxes)i segmentació semàntica, ambdues utilitzant DCNN. Tots dos enfocaments es validenmitjançant dues aplicacions connectades amb la indústria, relacionades amb la inspeccióvisual i el control de qualitat. Les dues solucions intenten produir deteccions eficients,ja sigui per disseny a través de la regressió de caixes circumdants rotades, o per mitjà del’etiquetatge de píxels individuals, la forma mitjançant la qual la segmentació semànticaes pot adaptar, per naturalesa, a la forma dels objectes.A la primera part d’aquesta tesi, es proposa una solució per al reconeixement d’objectesen dues etapes. En aquest treball, es desenvolupa una arquitectura piramidal basada enel mètode Single-Shot multi-box Detector, amb l’objectiu d’inferir caixes circumdantsno rotades. Posteriorment, desenvolupam una xarxa de regressió senzilla per inferir lescaixes rotades sobre la base de les caixes no rotades resultants de la primera etapa. A lasegona part d’aquesta tesi, desenvolupem solucions de segmentació a nivell de píxel queutilitzen anotacions completes i febles. Pel que fa a la solució totalment supervisada, entrenemuna xarxa totalment convolucional utilitzant diferents funcions de pèrdua, ambl’objectiu de resoldre el problema de detecció d’objectius d’àrea petita. Pel que fa al’enfocament de segmentació semàntica feblement supervisada, proposem una funció depèrdua nova per contrarestar els efectes de les anotacions febles. Finalment, provamdiverses estratègies simples per combinar la detecció de caixes circumdants no orientadesamb enfocaments de segmentació semàntica per tal d’obtenir millor rendiment encomparació amb l’aplicació dels dos mètodes de forma independent. Tots els mètodesanteriorment esmentats s’avaluen utilitzant datasets de les dues tasques de visió consideradesen aquesta tesi. Els resultats obtinguts ens permeten confirmar un rendimentcompetitiu per part dels mètodes desenvolupats.

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Visió per Computador

Documents

Yao_Kai.pdf

109.3Mb

 

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)