Modeling and reconstruction of 3D humans under context

Autor/a

Ugrinovic Kehdy, Nicolas

Director/a

Sanfeliu Cortés, Alberto

Codirector/a

Moreno-Noguer, Francesc

Fecha de defensa

2025-04-04

Páginas

142 p.



Departamento/Instituto

Universitat Politècnica de Catalunya. Departament de Ciències de la Computació

Programa de doctorado

DOCTORAT EN INTEL·LIGÈNCIA ARTIFICIAL (Pla 2012)

Resumen

(English) The study of human's and their behavior through the analysis of images and videos has long been a central topic in Computer Vision. The reconstruction and modeling of human behavior have garnered increasing attention, due to their potential applications in virtual environments, including AR/VR, sports, fashion, and the film industry. Despite this growing interest, accurately capturing and generating the 3D pose and motion of humans remains an important challenge, primarily due to the vast diversity of human movements and the inherent complexity of the human body. Furthermore, the ability to capture and replicate subtle human interactions---such as a hug---that are intuitively understood by humans continues to be a significant obstacle for machines. This complexity arises from the need for a deep understanding of the physical world, its constraints, and the nuanced ways in which humans interact with it. This thesis presents the development of several methodologies for reconstructing and modeling various aspects of humans in 3D, including detailed shape, pose, and motion, mainly from RGB images. A key emphasis is placed on capturing or incorporating contextual information as additional information. First, we introduce a method for modeling the detailed body shape of individuals, which includes elements such as clothing across a wide range of poses. Subsequently, the focus shifts to the simultaneous pose estimation of multiple individuals, wherein scene constraints are employed to enhance the accuracy of these estimations. This approach addresses the fundamental challenges of depth and scale ambiguity inherent in 3D reconstruction. The work is then extended into the temporal domain, to reconstruct interacting individuals, particularly in scenarios involving close interactions. A significant challenge under such situations is the lack of compliance with physical laws, such as body collisions. To address this, we integrate a fully-featured physics simulator within a motion estimation pipeline to account for these physical inconsistencies. Lastly, we propose a method capable of generating human motion that interacts with a virtual environment. All proposed methods have undergone extensive evaluation. In summary, this thesis introduces a suite of tools for the modeling and reconstruction of 3D humans, advancing the field towards more accurate capture and recreation of realistic behavior for virtual humans, with a particular emphasis on their interactions with its surrounding environment.


(Català) L'estudi dels humans i el seu comportament mitjançant l'anàlisi d'imatges i vídeos ha estat durant molt de temps un tema central a la visió per ordinador. La reconstrucció i el modelatge del comportament humà han cridat una atenció creixent, a causa de les seves potencials aplicacions en entorns virtuals, com ara AR/VR, esports, moda i la indústria cinematogràfica. Malgrat aquest interès creixent, capturar i generar amb precisió la postura i el moviment en 3D dels humans continua sent un repte important, principalment a causa de la gran diversitat de moviments humans i la complexitat inherent del cos humà. A més, la capacitat de capturar i replicar interaccions humanes subtils, com ara una abraçada, que els humans entenen de manera intuïtiva, continua sent un obstacle important per a les màquines. Aquesta complexitat sorgeix de la necessitat d'una comprensió profunda del món físic, les seves limitacions i les maneres matisades en què els humans interactuen amb ell. Aquesta tesi presenta el desenvolupament de diverses metodologies per reconstruir i modelar diversos aspectes dels humans en 3D, incloent la forma detallada, la postura i el moviment, principalment a partir d'imatges RGB. Es posa un èmfasi clau en capturar o incorporar informació contextual com a informació addicional. En primer lloc, introduïm un mètode per modelar la forma detallada del cos de les persones, que inclou elements com la roba en una àmplia gamma de postures. Posteriorment, el focus es desplaça cap a l'estimació simultània de la postura de múltiples individus, on s'utilitzen restriccions d'escena per millorar la precisió d'aquestes estimacions. Aquest enfocament aborda els reptes fonamentals de l'ambigüitat de profunditat i escala inherents a la reconstrucció 3D. A continuació, el treball s'estén al domini temporal, per reconstruir individus que interactuen, especialment en escenaris que impliquen interaccions properes. Un repte important en aquestes situacions és la falta de compliment de les lleis físiques, com ara els xocs corporals. Per solucionar-ho, integrem un simulador de física amb totes les funcions dins d'una canalització d'estimació de moviment per tenir en compte aquestes inconsistències físiques. Finalment, proposem un mètode capaç de generar moviment humà que interactua amb un entorn virtual. Tots els mètodes proposats han estat sotmesos a una àmplia avaluació. En resum, aquesta tesi introdueix un conjunt d'eines per al modelatge i reconstrucció d'humans en 3D, avançant el camp cap a una captura i recreació més precisa del comportament realista dels humans virtuals, amb un èmfasi particular en les seves interaccions amb el seu entorn.


(Español) El estudio de los seres humanos y su comportamiento a través del análisis de imágenes y vídeos ha sido durante mucho tiempo un tema central en la visión artificial. La reconstrucción y el modelado del comportamiento humano han ganado cada vez más atención debido a sus posibles aplicaciones en entornos virtuales, como la realidad aumentada y la realidad virtual, los deportes, la moda y la industria cinematográfica. A pesar de este creciente interés, capturar y generar con precisión la pose y el movimiento en 3D de los seres humanos sigue siendo un desafío importante, principalmente debido a la gran diversidad de movimientos humanos y la complejidad inherente del cuerpo humano. Además, la capacidad de capturar y replicar interacciones humanas sutiles (como un abrazo) que los seres humanos comprenden intuitivamente sigue siendo un obstáculo importante para las máquinas. Esta complejidad surge de la necesidad de una comprensión profunda del mundo físico, sus limitaciones y las formas matizadas en que los seres humanos interactúan con él. Esta tesis presenta el desarrollo de varias metodologías para reconstruir y modelar varios aspectos de los seres humanos en 3D, incluida la forma, la pose y el movimiento detallados, principalmente a partir de imágenes RGB. Se hace especial hincapié en capturar o incorporar información contextual como información adicional. En primer lugar, presentamos un método para modelar la forma corporal detallada de individuos, que incluye elementos como la ropa en una amplia gama de poses. Posteriormente, el enfoque se desplaza a la estimación simultánea de la pose de múltiples individuos, en la que se emplean restricciones de escena para mejorar la precisión de estas estimaciones. Este enfoque aborda los desafíos fundamentales de la profundidad y la ambigüedad de escala inherentes a la reconstrucción 3D. Luego, el trabajo se extiende al dominio temporal, para reconstruir individuos que interactúan, particularmente en escenarios que involucran interacciones cercanas. Un desafío significativo en tales situaciones es la falta de cumplimiento de las leyes físicas, como las colisiones corporales. Para abordar esto, integramos un simulador de física con todas las funciones dentro de un proceso de estimación de movimiento para tener en cuenta estas inconsistencias físicas. Por último, proponemos un método capaz de generar movimiento humano que interactúa con un entorno virtual. Todos los métodos propuestos han sido sometidos a una evaluación exhaustiva. En resumen, esta tesis presenta un conjunto de herramientas para el modelado y reconstrucción de humanos en 3D, avanzando el campo hacia una captura y recreación más precisa del comportamiento realista de los humanos virtuales, con un énfasis particular en sus interacciones con su entorno circundante.

Palabras clave

Deep Learning; Computer Vision; Neural Networks; Generative Modeling; Human Pose; Human Motion; 3D vision

Materias

004 - Informàtica

Área de conocimiento

Àrees temàtiques de la UPC::Informàtica

Nota

Tesi amb menció de Doctorat Internacional

Documentos

TNUK1de1.pdf

14.72Mb

Derechos

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/

Este ítem aparece en la(s) siguiente(s) colección(ones)