Understanding human intention for human-robot interaction

llistat de metadades

Director/a

Sanfeliu Cortés, Alberto

Data de defensa

2025-07-15

Pàgines

358 p.



Departament/Institut

Universitat Politècnica de Catalunya. Institut d'Organització i Control de Sistemes Industrials

Programa de doctorat

DOCTORAT EN AUTOMÀTICA, ROBÒTICA I VISIÓ (Pla 2013)

Resum

(English) This doctoral thesis delves into the concept of intention in robotics, aiming to establish a comprehensive and practical definition while exploring its technical and social implications. The research begins by addressing a significant gap in the field: the absence of a clear definition of intention in robotics, where it is often conflated with motion or goal prediction. To address this, the thesis proposes a novel taxonomy of human intention, synthesising insights from psychology and other disciplines. This taxonomy provides a structured framework for understanding intention, categorising it into various types. This foundational work is further expanded through the development of the Perception-Intention-Action (PIA) cycle, a theoretical framework designed to integrate human intention into the decision-making processes of robots. The PIA cycle enhances traditional Perception-Action models by incorporating intention as a core component, enabling robots to exhibit anticipatory and proactive behaviours, thereby improving Human-Robot Interaction (HRI) and Collaboration (HRC). Furthermore, the thesis introduces collaborative roles (Leader, Follower, Collaborative, Neutral, and Adversarial), expanding traditional frameworks and opening new avenues for robotic behaviour programming. The thesis is structured around three primary use cases: collaborative search, collaborative object transportation, and handover tasks. Each case study serves as a practical demonstration of the PIA cycle or its implications, highlighting the importance of both implicit and explicit intention communication between humans and robots. In the collaborative search task, a mobile application was developed to facilitate explicit communication, with experiments showing that users are willing to communicate their intentions to improve team performance. The collaborative transportation task involved the development of a force-based model that integrates human intention inference with explicit communication, alongside the creation of force/velocity predictors to enhance intention inference. The handover task served as a context to define and posteriorly explore the concepts of anticipation and proactivity, demonstrating that both behaviours can enhance HRI, albeit impacting different aspects of the interaction. The thesis makes several technical contributions, including force/velocity predictors for intention inference and a novel generalization of a Deep Learning (DL) architecture for video processing. These tools not only improve the practical application of the PIA cycle but also offer potential benefits for other research areas. Key findings from the research include the identification of a perceptual threshold beyond which further improvements in prediction accuracy become imperceptible to humans. This suggests that once a ``good enough'' level of accuracy is achieved, additional technical enhancements may not yield noticeable benefits. Additionally, the research revealed a preference among users for natural communication systems over technically robust but less intuitive interfaces. These insights indicate a need for a paradigm shift in HRI development, moving away from increasingly complex predictors and inference engines towards systems that accept robotic fallibility and prioritise natural communication methods. This approach fosters more companion-like interactions instead of utility-based interactions, where robots are seen more like partners instead of mere tools.


(Català) Aquesta tesi doctoral aprofundeix en el concepte d'intenció en robòtica, amb l'objectiu d'establir una definició exhaustiva i pràctica, alhora que explora les seves implicacions tècniques i socials. La investigació comença abordant una mancança significativa en el camp: l'absència d'una definició clara d'intenció en robòtica, on sovint es confon amb la predicció de moviment o d'objectius. Per abordar això, la tesi proposa una nova taxonomia de la intenció humana, sintetitzant coneixements de la psicologia i altres disciplines. Aquesta taxonomia proporciona un marc estructurat per comprendre la intenció, categoritzant-la en diversos tipus. Aquest treball fundacional sobre la intenció s'amplia encara més mitjançant el desenvolupament del cicle Percepció-Intenció-Acció (PIA), un marc teòric dissenyat per integrar la intenció humana en els processos de presa de decisions dels robots. El cicle PIA millora els models tradicionals de Percepció-Acció en incorporar la intenció com a component central, la qual cosa permet als robots exhibir comportaments anticipatoris i proactius, millorant així la interacció humà-robot (IHR) i la col·laboració humà-robot (CHR). A més, la tesi introdueix rols col·laboratius (Líder, Seguidor, Col·laboratiu, Neutral i Adversari), ampliant els marcs tradicionals i obrint noves vies per a la programació del comportament robòtic. La tesi s'estructura al voltant de tres casos d'ús: cerca col·laborativa, transport col·laboratiu d'objectes i tasques de lliurament. Cada cas d'estudi serveix com una demostració pràctica del cicle PIA o les seves implicacions, destacant la importància de la comunicació de la intenció, tant implícita com explícita, entre humans i robots. En la tasca de cerca col·laborativa, es va desenvolupar una aplicació mòbil per facilitar la comunicació explícita, i els experiments van mostrar que els usuaris estan disposats a comunicar les seves intencions per millorar el rendiment de l'equip. La tasca de transport col·laboratiu va implicar el desenvolupament d'un model basat en la força que integra la inferència de la intenció humana amb la comunicació explícita, juntament amb la creació de predictors de força/velocitat per millorar la inferència de la intenció. La tasca de lliurament va servir com a context per definir i explorar posteriorment els conceptes d'anticipació i proactivitat, demostrant que ambdós comportaments poden millorar la IHR, tot i que impacten en diferents aspectes de la interacció. La tesi realitza diverses contribucions tècniques, incloent-hi el desenvolupament de predictors de força/velocitat per a la inferència de la intenció i una nova generalització d'una arquitectura d'Aprenentatge Profund (DL) per al processament de vídeo. Aquestes eines no només milloren l'aplicació pràctica del cicle PIA, sinó que també ofereixen beneficis potencials per a altres àrees de recerca. Els principals descobriments de la investigació inclouen la identificació d'un llindar perceptual més enllà del qual les millores addicionals en la precisió de la predicció es tornen imperceptibles per als humans. Això suggereix que una vegada que s'assoleix un nivell de precisió "prou bo", les millores tècniques addicionals poden no generar beneficis notables. A més, la investigació va revelar una preferència entre els usuaris pels sistemes de comunicació naturals sobre les interfícies tècnicament robustes però menys intuïtives. Aquests coneixements indiquen la necessitat d'un canvi de paradigma en el desenvolupament de la IHR, allunyant-se de predictors i motors d'inferència cada vegada més complexos cap a sistemes que acceptin la fal·libilitat robòtica i prioritzin els mètodes de comunicació naturals. Aquest enfocament fomenta interaccions més semblants a companys en lloc d'interaccions basades en la utilitat, on els robots són vistos més com a socis en lloc de meres eines.


(Español) Esta tesis doctoral profundiza en el concepto de intención en robótica, con el objetivo de establecer una definición exhaustiva y práctica, al tiempo que explora sus implicaciones técnicas y sociales. La investigación comienza abordando una laguna significativa en el campo: la ausencia de una definición clara de intención en robótica, donde a menudo se confunde con la predicción de movimiento o de objetivos. Para abordar esto, la tesis propone una nueva taxonomía de la intención humana, sintetizando conocimientos de la psicología y otras disciplinas. Esta taxonomía proporciona un marco estructurado para comprender la intención, categorizándola en varios tipos. Este trabajo fundacional sobre la intención se amplía aún más mediante el desarrollo del ciclo Percepción-Intención-Acción (PIA), un marco teórico diseñado para integrar la intención humana en los procesos de toma de decisiones de los robots. El ciclo PIA mejora los modelos tradicionales de Percepción-Acción al incorporar la intención como un componente central, lo que permite a los robots exhibir comportamientos anticipatorios y proactivos, mejorando así la Interacción Humano-Robot (HRI) y la Colaboración Humano-Robot (HRC). Además, la tesis introduce roles colaborativos (Líder, Seguidor, Colaborativo, Neutral y Adversario), ampliando los marcos tradicionales y abriendo nuevas vías para la programación del comportamiento robótico. La tesis se estructura en torno a tres casos de uso: búsqueda colaborativa, transporte colaborativo de objetos y tareas de entrega. Cada caso de estudio sirve como una demostración práctica del ciclo PIA o sus implicaciones, destacando la importancia de la comunicación de la intención, tanto implícita como explícita, entre humanos y robots. En la tarea de búsqueda colaborativa, se desarrolló una aplicación móvil para facilitar la comunicación explícita, y los experimentos mostraron que los usuarios están dispuestos a comunicar sus intenciones para mejorar el rendimiento del equipo. La tarea de transporte colaborativo implicó el desarrollo de un modelo basado en la fuerza que integra la inferencia de la intención humana con la comunicación explícita, junto con la creación de predictores de fuerza/velocidad para mejorar la inferencia de la intención. La tarea de entrega sirvió como contexto para definir y explorar posteriormente los conceptos de anticipación y proactividad, demostrando que ambos comportamientos pueden mejorar la IHR, aunque impactan en diferentes aspectos de la interacción. La tesis realiza varias contribuciones técnicas, incluido el desarrollo de predictores de fuerza/velocidad para la inferencia de la intención y una nueva generalización de una arquitectura de Aprendizaje Profundo (DL) para el procesamiento de vídeo. Estas herramientas no solo mejoran la aplicación práctica del ciclo PIA, sino que también ofrecen beneficios potenciales para otras áreas de investigación. Los principales hallazgos de la investigación incluyen la identificación de un umbral perceptual más allá del cual las mejoras adicionales en la precisión de la predicción se vuelven imperceptibles para los humanos. Esto sugiere que una vez que se alcanza un nivel de precisión "suficientemente bueno", las mejoras técnicas adicionales pueden no generar beneficios notables. Además, la investigación reveló una preferencia entre los usuarios por los sistemas de comunicación naturales sobre las interfaces técnicamente robustas pero menos intuitivas. Estos conocimientos indican la necesidad de un cambio de paradigma en el desarrollo de la IHR, alejándose de predictores y motores de inferencia cada vez más complejos hacia sistemas que acepten la falibilidad robótica y prioricen los métodos de comunicación naturales. Este enfoque fomenta interacciones más de tipo compañero en lugar de interacciones basadas en la utilidad, donde los robots son vistos más como socios en lugar de meras herramientas.

Matèries

004 - Informàtica

Citació recomanada
Aquesta citació s'ha generat automàticament.

Documents

Llistat documents

Aquest document conté fitxers embargats fins el dia 13-03-2026

Drets

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

Aquest element apareix en la col·lecció o col·leccions següent(s)