Towards Efficient and Robust Convolutional Neural Networks for Single Image Super-Resolution

Author

Behjati, Parichehr

Director

Gonzàlez i Sabaté, Jordi

Rodriguez Lopez, Pau

Roca i Marvà, Francesc Xavier

Date of defense

2022-04-27

Pages

148 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

La superresolució d’imatge única (SISR) és una tasca important en el processament d’imatges, que té com a objectiu millorar la resolució dels sistemes d’imatges. Recentment, SISR ha estat testimoni de grans avenços amb el desenvolupament ràpid de l’aprenentatge profund. Els beneficis dels mètodes basats en l’aprenentatge profund provenen principalment dels seus dos factors clau, és a dir, de la profunditat de la xarxa i de poder saltar connexions (residuals o denses) entre neurones. El primer proporciona una poderosa capacitat per representar i establir un mapeig de baixa resolució a alta resolució més complex, alhora que permet treballar amb característiques jeràrquiques. El segon factor pot alleujar de manera eficient el problema de la desaparició/explosió del gradient, problemes causats simplement per tenir en compte xarxes amb moltes capes de profunditat. No obstant això, a mesura que augmenta la profunditat de les xarxes aplicades a problemes SISR, aquests mètodes s’enfronten a la pràctica amb el desafiament de la complexitat computacional. A més, els mètodes de SISR basats en xarxes neuronals més profunds poques vegades aprofiten les característiques jeràrquiques de les imatges originals de baixa resolució, i tampoc presten prou atenció a la (encara que limitada) informació d’alta freqüència que esxiti en aquestes imatges, aconseguint així un baix rendiment. A banda dels problemes abans esmentats, una altra limitació dels mètodes SISR és poder augmentar la mostra d’imatges a escales arbitràries, a partir d’un sol model. Així, actualment els mètodes basats en aprenentatge profund entrenen un model dedicat per a cada resolució objectiu, perdent generalitat i augmentant els requisits de memòria. En aquesta Tesi, proposem diferents mètodes SISR basats en aprenentatge profund que permeten fer front als problemes esmentats anteriorment, en concret: (i) presentem un nou extractor de funcions molt eficient que permet una reutilització efectiva dinformació a través duna nova proposta destructura recursiva de salt i connexions denses. (ii) També presentem un procediment nou per utilitzar els mecanismes d’atenció juntament amb els blocs residuals, seguint dos camins computacionals independents però paral·lels per fer un ús eficient de les característiques a les primeres capes. (iii) Introduïm un mecanisme direccional d’atenció de variància, específicament optimitzat per a SISR, per millorar les característiques als diferents canals i en diferents regions espacials. (iv) Presentem una nova millora basada en blocs de freqüència que descomponen eficientment les característiques en baixa i alta freqüències, i assigna més còmput als d’alta freqüència, ajudant així la xarxa a generar representacions més discriminatives en ser capaços de recuperar explícitament detalls més fins. (v) Proposem un nou mòdul de sobreescala (OSM) que genera mapes sobreescalats a partir d’escales arbitràries. (vi) Presentem una nova funció de pèrdua multiescala per a SISR, que permet l’entrenament simultani de tots els factors d’escala alhora fent servir un sol model. I finalment, (vii) demostrem que les propostes generades pels nostres enfocaments permeten assolir un rendiment considerablement millor que l’estat de l’art actual a SISR, amb unes exigències de computació més baixes.


La superresolución de imagen única (SISR) es una tarea importante en el procesamiento de imágenes, cuyo objetivo es mejorar la resolución de los sistemas de imágenes. Recientemente, SISR ha sido testigo de grandes avances con el rápido desarrollo del aprendizaje profundo. Los beneficios de los métodos basados en el aprendizaje profundo provienen principalmente de sus dos factores clave, es decir, de la profundidad de la red y de poder saltar conexiones (residuales o densas) entre neuronas. El primero proporciona una poderosa capacidad para representar y establecer un mapeo de baja resolucion a alta resolución más complejo, al tiempo que permite trabajar con características jerárquicas. El segundo factor puede aliviar de manera eficiente el problema de la desaparición/explosión del gradiente, problemas causados simplemente por tener en cuenta redes con muchas capas de profundidad. Sin embargo, a medida que se aumenta la profundidad de las redes aplicadas a problemas SISR, estos métodos se enfrentan a la práctica con el desafío de la complejidad computacional. Además, los métodos de SISR basados en redes neuronales más profundos rara vez aprovechan las características jerárquicas de las imágenes originales de baja resolución, y tampoco prestan suficiente atención a la (aunque limitada) información de alta frecuencia que esxite en dichas imágenes, logrando así un bajo rendimiento. Aparte de los problemas antes mencionados, otra limitación de los métodos SISR es poder aumentar la muestra de imágenes a escalas arbitrarias, a partir de un solo modelo. Así, en la actualidad los métodos basados en aprendizaje profundo entrenan un modelo dedicado para cada resolución objetivo, perdiendo generalidad y aumentando los requisitos de memoria. En esta Tesis, proponemos diferentes métodos SISR basados en aprendizaje profundo que permiten hacer frente a los problemas mencionados anteriormente, en concreto: (i) presentamos un nuevo extractor de funciones muy eficiente que permite una reutilización efectiva de información a través de una nueva propuesta de estructura recursiva de salto y conexiones densas. (ii) También presentamos un procedimiento nuevo para usar los mecanismos de atención junto con los bloques residuales, siguiendo dos caminos computacionales independientes pero paralelos para hacer un uso eficiente de las características en las primeras capas. (iii) Introducimos un mecanismo direccional de atención de varianza, específicamente optimizado para SISR, para mejorar las características en los diferentes canales y en distintas regiones espaciales. (iv) Presentamos una nueva mejora basada en bloques de frecuencia que descomponen eficientemente las características en baja y alta frecuencias, y asigna más cómputo a los de alta frecuencia, ayudando así a la red a generar representaciones más discriminativas al ser capaces de recuperar explícitamente detalles más finos. (v) Proponemos un nuevo módulo de sobreescala (OSM) que genera mapas sobre-escalados a partir de escalas arbitrarias. (vi) Presentamos un nueva función de pérdida multiescala para SISR, que permite el entrenamiento simultáneo de todos los factores de escala a la vez usando un solo modelo. Y finalmente, (vii) demostramos que las propuestas generadas por nuestros enfoques permiten lograr un rendimiento considerablemente mejor que el estado del arte actual en SISR, con unas exigencias de computación más bajas.


Single image super-resolution (SISR) is an important task in image processing, which aims to enhance the resolution of imaging systems. Recently, SISR has witnessed great strides with the rapid development of deep learning. The benefits of deep learning-based methods mainly come from its two key factors, i.e., depth and skip connections (residual or dense). The first one provides a powerful capability to represent and establish a more complex LR-HR mapping while offering hierarchical features. The second factor can efficiently alleviate the gradient vanishing/exploding problems caused by simply stacking more layers to deepen networks. However, as the depth of networks increases, deep learning SR methods are faced with the challenge of computational complexity in practice. Moreover, most deep learning-based SR methods not only rarely leverage the hierarchical features from the original low-resolution (LR) images but also do not pay enough attention to the limited high-frequency information in the LR images, thereby achieving relatively low performance. Aside from the aforementioned problems, another desired ability is to upsample images to arbitrary scales using a single model. Current deep learning-based SRmethods train a dedicated model for each target resolution, losing generality and increasing memory requirements. Concretely, we propose different deep learning-based SISR algorithms to deal with the previously mentioned issues: (i)We introduce a lightweight feature extractor that enforces efficient reuse of information through a novel recursive structure of skip and dense connections. (ii)We also introduce a novel procedure for using attention mechanisms together with residual blocks, following two independent but parallel computational paths in order to make efficient use of features in early layers. (iii)We introduce a directional variance attention mechanism, specifically optimized for SR, to enhance features in different channels and spatial regions. (iv)We present a novel frequency-based enhancement block that efficiently decomposes features into low- and high-frequency and assigns more computation to high-frequency ones, thus helping the network generates more discriminative representations by explicitly recovering finer details. (v)We propose an overscaling module (OSM) that generates overscaled maps from which HR images can be accurately recovered at arbitrary scales. (vi)We introduce a novel multi-scale loss function for SISR, that allows the simultaneous training of all scale factors using a single model. Finally, we demonstrate that the proposals generated by our approaches achieve considerably better performance than previous SISR state-of-the-art methods.

Keywords

Aprenentatge màquina profund; Aprendizaje máquina profundo; Deep learning; Imatges multi-resolució; Imágenes multi-resolución; Multi-resolution images; Processament d'imatges; Procesado de imagenes; Image processing

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Tecnologies

Documents

pabe1de1.pdf

3.344Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

This item appears in the following Collection(s)