Deep learning based architectures for cross-domain image processing

Mehri, Armin; Mehri, Armin

Deep learning based architectures for cross-domain image processing

Autor/a

Mehri, Armin

Director/a

Sappa, Ángel Domingo

Fecha de defensa

2023-02-10

Páginas

184 p.

Programa de doctorado

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Resumen

La visió humana està restringida a l’espectre visual-òptic. La visió artificial no ho és. Les càmeres sensibles a diverses bandes espectrals d’infrarojos poden millorar les capacitats dels sistemes autònoms i proporcionar una visió completa. El contingut rellevant de l’escena es pot fer visible, especialment en situacions en què els sensors d’altres modalitats, com ara una càmera visual-òptica, requereixen una font d’il·luminació. Com a resultat, augmentar el nivell d’automatització no només evita errors humans sinó que també redueix els errors induïts per la màquina. A més, els sistemes de sensors multiespectrals amb imatges infrarojes com una modalitat són una font rica d’informació i poden augmentar la robustesa de molts sistemes autònoms. La robòtica, els automòbils, la biometria, la seguretat, la vigilància i l’exèrcit són alguns exemples de camps que poden beneficiar-se de l’ús d’imatges infrarojes en les seves respectives aplicacions. Tot i que els sensors espectrals multimodals han recorregut un llarg camí, encara hi ha diversos colls d’ampolla que ens impedeixen combinar la seva informació de sortida i utilitzar-los com a imatges completes. El problema principal amb la imatge infraroja és la manca de beneficis potencials a causa de la seva influència en el cost en la resolució del sensor, que creix exponencialment amb una resolució més gran. A causa de la tecnologia de sensors més costosa necessària per al seu desenvolupament, les seves resolucions són substancialment inferiors a les de les càmeres digitals normals. Aquesta tesi té com a objectiu millorar la visió artificial de l’espectre més enllà del visible mitjançant la integració de sensors espectrals multimodals. L’èmfasi està en transformar les imatges produïdes per millorar-ne la resolució perquè coincideixi amb la percepció humana esperada, apropar la representació del color a la comprensió humana del color natural i millorar el rendiment de l’aplicació de visió artificial. Aquesta investigació se centra principalment en dues tasques, la coloració d’imatges i la superresolució d’imatges, tant per a problemes d’un sol domini com per a problemes entre dominis. Primer comencem amb una revisió extensa de l’estat de l’art en ambdues tasques, assenyalem les deficiències dels enfocaments existents i després presentem les nostres solucions per abordar les seves limitacions. Les nostres solucions demostren que la informació del canal de baix cost (és a dir, la imatge visible) es pot utilitzar per millorar la informació del canal cara (és a dir, la imatge infraroja), donant lloc a imatges de major qualitat i més properes a la percepció humana a un cost més baix que un cost elevat càmera infraroja.

La visión humana está restringida al espectro visual-óptico. La visión artificial no lo es. Las cámaras sensibles a diversas bandas espectrales de infrarrojos pueden mejorar las capacidades de los sistemas autónomos y proporcionar una visión integral. El contenido relevante de la escena se puede hacer visible, particularmente en situaciones en las que los sensores de otras modalidades, como una cámara visual-óptica, requieren una fuente de iluminación. Como resultado, aumentar el nivel de automatización no solo evita los errores humanos, sino que también reduce los errores inducidos por las máquinas. Además, los sistemas de sensores multiespectrales con imágenes infrarrojas como una modalidad son una rica fuente de información y posiblemente pueden aumentar la solidez de muchos sistemas autónomos. La robótica, los automóviles, la biometría, la seguridad, la vigilancia y el ejército son algunos ejemplos de campos que pueden beneficiarse del uso de imágenes infrarrojas en sus respectivas aplicaciones. Aunque los sensores espectrales multimodales han recorrido un largo camino, todavía hay varios cuellos de botella que nos impiden combinar su información de salida y utilizarlos como imágenes completas. El problema principal con las imágenes infrarrojas es la falta de beneficios potenciales debido a la influencia de su costo en la resolución del sensor, que crece exponencialmente con una mayor resolución. Debido a la tecnología de sensor más costosa requerida para su desarrollo, sus resoluciones son sustancialmente más bajas que las de las cámaras digitales normales. Esta tesis tiene como objetivo mejorar la visión artificial más allá del espectro visible mediante la integración de sensores espectrales multimodales. El énfasis está en transformar las imágenes producidas para mejorar su resolución para que coincida con la percepción humana esperada, acercar la representación del color a la comprensión humana del color natural y mejorar el rendimiento de la aplicación de visión artificial. Esta investigación se centra principalmente en dos tareas, la colorización de imágenes y la superresolución de imágenes, tanto para problemas de un solo dominio como de dominio cruzado. Primero comenzamos con una revisión extensa del estado del arte en ambas tareas, señalamos las deficiencias de los enfoques existentes y luego presentamos nuestras soluciones para abordar sus limitaciones. Nuestras soluciones demuestran que la información de canal de bajo costo (es decir, la imagen visible) se puede utilizar para mejorar la información de canal costosa (es decir, la imagen infrarroja), lo que da como resultado imágenes de mayor calidad y más cercanas a la percepción humana a un costo menor que una imagen de alto costo cámara infrarroja.

Human vision is restricted to the visual-optical spectrum. Machine vision is not. Cameras sensitive to diverse infrared spectral bands can improve the capacities of autonomous systems and provide a comprehensive view. Relevant scene content can be made visible, particularly in situations when sensors of other modalities, such as a visual-optical camera, require a source of illumination. As a result, increasing the level of automation not only avoids human errors but also reduces machine-induced errors. Furthermore, multi-spectral sensor systems with infrared imagery as one modality are a rich source of information and can conceivably increase the robustness of many autonomous systems. Robotics, automobiles, biometrics, security, surveillance, and the military are some examples of fields that can profit from the use of infrared imagery in their respective applications. Although multimodal spectral sensors have come a long way, there are still several bottlenecks that prevent us from combining their output information and using them as comprehensive images. The primary issue with infrared imaging is the lack of potential benefits due to their cost influence on sensor resolution, which grows exponentially with greater resolution. Due to the more costly sensor technology required for their development, their resolutions are substantially lower than those of regular digital cameras. This thesis aims to improve beyond-visible-spectrum machine vision by integrating multi-modal spectral sensors. The emphasis is on transforming the produced images to enhance their resolution to match expected human perception, bring the color representation close to human understanding of natural color, and improve machine vision application performance. This research focuses mainly on two tasks, image Colorization and Image Super resolution for both single- and cross-domain problems. We first start with an extensive review of the state of the art in both tasks, point out the shortcomings of existing approaches, and then present our solutions to address their limitations. Our solutions demonstrate that low-cost channel information (i.e., visible image) can be used to improve expensive channel information (i.e., infrared image), resulting in images of higher quality and closer to human perception at a lower cost than a high-cost infrared camera.

Palabras clave

Super resolució; Super Rresolución; Super resolution; Procesamiento de imágenes entre dominios; Cross-domain image processing; Restauración de imágenes; Image restoration

Materias

004 - Informática

Área de conocimiento

Tecnologies

Citación recomendada

Esta citación se ha generado automáticamente.

Documentos

arme1de1.pdf

3.717Mb

Exportar

DIDL MARC MARC_CCUC METS OAI_DC ORE QDC RDF

Derechos

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Este ítem aparece en la(s) siguiente(s) colección(ones)

Programa de Doctorat en Informàtica [89]

Àrea de contingut