Bio-inspired event-driven intelligence for motion estimation

Autor/a

Tian, Yi

Director/a

Andrade-Cetto, Juan

Fecha de defensa

2025-05-19

Páginas

89 p.



Departamento/Instituto

Universitat Politècnica de Catalunya. Institut d'Organització i Control de Sistemes Industrials

Programa de doctorado

DOCTORAT EN AUTOMÀTICA, ROBÒTICA I VISIÓ (Pla 2013)

Resumen

(English) Motion estimation problems can range from low degrees of freedom (DOF) ego-motion estimation to complex, high-DOF motion, which includes dense pixel displacement or optical flow. This information is essential for enabling robots to perceive and navigate their environments. However, existing vision systems for motion estimation are less robust and efficient than biological systems, largely due to limitations in sensor technology and processing methods. This thesis builds on the bio-inspired sensor -event camera-, and the brain-inspired computing approach -Spiking Neural Networks (SNNs)-, presenting a promising solution that bridges these gaps. Event-based cameras have high temporal resolution, low latency, reduced data redundancy, and are power efficient. These unique capabilities make them particularly well-suited for environments and tasks where traditional frame-based cameras struggle. They show great potential for the solution of motion estimation problems across a wide range of applications, such as providing accurate and low-latency motion estimation for autonomous vehicles or aerial robots. SNNs are inspired by how neurons in the human brain communicate through synapses using spikes, which are brief and discrete electrical signals that allow highly efficient and robust information processing. The thesis begins with estimating 3-DOF ego-motion, progresses to sparse optical flow, and ultimately tackles dense optical flow. In the first step, the thesis addresses event-based ego-motion estimation by integrating SNN approaches with traditional optimization-based techniques. It explores the ego-motion estimation problem from inference optical flow obtained by an SNN and proposes a pooling method to address the aperture problem encountered in the sparse and noisy normal flow output of the SNN. In the next step, modern artificial neural network (ANN) architectures are leveraged to improve event-based optical flow estimation. This step proposes a U-Net transformer-based architecture with a recurrent neural network as the backbone. In the final phase of this research, the visual transformer architecture is further extended to flow encoders, incorporating spatiotemporal attention to enhance the extraction of temporal information. This led to the development of a swin transformer-based ANN model and its spiking counterpart. Notably, this work marks the first use of spikeformers in event-based optical flow estimation, demonstrating the potential of combining transformer architectures with SNNs for regression tasks. Overall, this thesis advances the understanding of motion estimation using event cameras. It sets the stage for their application in real-world scenarios such as high-speed object tracking and simultaneous localization and mapping (SLAM). The biologically inspired methods developed in this thesis offer promising avenues for balancing the performance and efficiency of computer vision and robotics systems, paving the way for future innovations in this field.


(Català) Els problemes d’estimació de moviment poden anar des de l’estimació de moviment propi (ego-motion) amb pocs graus de llibertat (GdL) fins a moviments complexos amb un nombre de GdL elevat, com ara el desplaçament dens de píxels o el flux òptic. Aquesta informació és essencial perquè els robots puguin percebre i navegar pel seu entorn. No obstant això, els sistemes de visió actuals per a l'estimació de moviment són menys robusts i eficients que els sistemes biològics, principalment a causa de les limitacions en la tecnologia dels sensors i els mètodes de processament. Aquesta tesi es basa en un sensor inspirat en la biologia —la càmera d'esdeveniments— i un enfocament de computació inspirat en el cervell —les xarxes neuronals polsades (SNNs)—, oferint una solució prometedora que cobreix aquestes mancances. Les càmeres basades en esdeveniments tenen una alta resolució temporal, baixa latència, poca redundància de dades i són energèticament eficients. Aquestes capacitats úniques les fan especialment adequades per a entorns i tasques on les càmeres tradicionals basades en fotogrames tenen dificultats. Aquestes càmeres mostren un gran potencial per resoldre problemes d’estimació de moviment en una àmplia gamma d’aplicacions, com proporcionar estimacions de moviment precises i de baixa latència per a vehicles autònoms o robots aèries. Les SNNs s’inspiren en la forma com les neurones del cervell humà es comuniquen a través de sinapsis utilitzant polses, que són senyals elèctrics breus i discrets que permeten un processament d’informació altament eficient i robust. La recerca comença amb l'estimació del moviment propi de 3-GdL, progressa cap al flux òptic escàs i finalment aborda el flux òptic dens. En el primer pas, la tesi tracta l'estimació de moviment propi basada en esdeveniments integrant els enfocaments de SNN amb tècniques d'optimització tradicionals. Explora el problema de l'estimació de moviment a partir del flux òptic inferit obtingut per una SNN i proposa un mètode d'agrupació per abordar el problema d’obertura que es troba en el flux normal escàs i sorollós produït per la SNN. En el següent pas, s’aprofiten les arquitectures modernes de xarxes neuronals artificials (ANN) per millorar l’estimació del flux òptic basat en esdeveniments. Aquest pas proposa una arquitectura basada en el transformador U-Net amb una xarxa neuronal recurrent com a base. En la fase final d’aquesta investigació, s’estén l’arquitectura del transformador visual a codificadors de flux, incorporant atenció espaciotemporal per millorar l’extracció de la informació temporal. Això va portar al desenvolupament d’un model ANN basat en el transformador swin i la seva contrapartida amb polses. Destacant que aquest treball és el primer ús dels “spikeformers” en l’estimació del flux òptic basat en esdeveniments, demostrant el potencial de combinar arquitectures de transformadors amb SNNs per a tasques de regressió. En conclusió, aquesta tesi avança en la comprensió de l’estimació de moviment utilitzant càmeres d’esdeveniments i prepara el camí per a la seva aplicació en escenaris del món real, com el seguiment d’objectes d’alta velocitat i la localització i el mapatge simultanis (SLAM). Els mètodes inspirats biològicament desenvolupats en aquesta tesi ofereixen vies prometedores per equilibrar el rendiment i l’eficiència dels sistemes de visió per ordinador i robòtica, obrint camí a futures innovacions en aquest camp.


(Español) Los problemas de estimación de movimiento pueden variar desde la estimación de movimiento propio (ego-motion) con pocos grados de libertad (GdL) hasta movimientos complejos con un alto número de GdL, como el desplazamiento denso de píxeles o el flujo óptico. Esta información es esencial para que los robots puedan percibir y navegar en su entorno. Sin embargo, los sistemas de visión actuales para la estimación de movimiento son menos robustos y eficientes que los sistemas biológicos, principalmente debido a las limitaciones en la tecnología de sensores y los métodos de procesamiento. Esta tesis se basa en un sensor bioinspirado —la cámara de eventos— y en un enfoque de computación inspirado en el cerebro —las redes neuronales pulsadas (SNNs)—, presentando una solución prometedora que cubre estas deficiencias. Las cámaras basadas en eventos ofrecen una alta resolución temporal, baja latencia, reducida redundancia de datos y son energéticamente eficientes. Estas capacidades únicas las hacen particularmente adecuadas para entornos y tareas donde las cámaras tradicionales basadas en fotogramas tienen dificultades. Estas cámaras muestran un gran potencial para resolver problemas de estimación de movimiento en una amplia gama de aplicaciones, como proporcionar estimaciones precisas y de baja latencia para vehículos autónomos o robots aéreos. Las SNNs se inspiran en la forma en que las neuronas del cerebro humano se comunican a través de sinapsis utilizando pulsos, que son señales eléctricas breves y discretas que permiten un procesamiento de información altamente eficiente y robusto. La investigación comienza con la estimación del movimiento propio de 3-GdL, avanza hacia el cómputo de flujo óptico disperso y, finalmente, aborda el cómputo de flujo óptico denso. En el primer paso, la tesis trata la estimación de movimiento propio basada en eventos, integrando enfoques de SNN con técnicas de optimización tradicionales. Explora el problema de estimación de movimiento a partir del flujo óptico inferido obtenido por una SNN y propone un método de agrupamiento para abordar el problema de apertura que se encuentra en el flujo normal producido por la SNN. En el siguiente paso, se aprovechan las arquitecturas modernas de redes neuronales artificiales (ANN) para mejorar la estimación de flujo óptico basado en eventos. Este paso propone una arquitectura basada en el transformador U-Net, con una red neuronal recurrente como base. En la fase final de esta investigación, se extiende la arquitectura del transformador visual a codificadores de flujo, incorporando atención espaciotemporal para mejorar la extracción de la información temporal. Esto llevó al desarrollo de un modelo ANN basado en el transformador swin y su contraparte pulsada. Este trabajo representa el primer uso de "spikeformers" en la estimación de flujo óptico basado en eventos, demostrando el potencial de combinar arquitecturas de transformadores con SNNs para tareas de regresión. En conclusión, esta tesis avanza en la comprensión de la estimación de movimiento utilizando cámaras de eventos y allana el camino para su aplicación en escenarios del mundo real, como el seguimiento de objetos de alta velocidad y la localización y el mapeo simultáneos (SLAM). Los métodos inspirados en la biología desarrollados en esta tesis ofrecen vías prometedoras para equilibrar el rendimiento y la eficiencia en sistemas de visión por computadora y robótica, abriendo camino a futuras innovaciones en este campo.

Palabras clave

Event camera; Motion estimation; Spiking Neural Network (SNNs); Ego-motion; Optical flow

Materias

004 - Informàtica

Área de conocimiento

Àrees temàtiques de la UPC::Informàtica

Documentos

TYT1de1.pdf

19.01Mb

 

Derechos

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

Este ítem aparece en la(s) siguiente(s) colección(ones)