Evolutionary Bags of Space-Time Features for Human Analysis

Author

Ponce López, Víctor

Director

Escalera Guerrero, Sergio

Baró i Solé, Xavier

Jair Escalante, Hugo

Tutor

Pujol Vila, Oriol

Date of defense

2016-06-02

Pages

151 p.



Department/Institute

Universitat de Barcelona. Departament de Matemàtiques i Informàtica

Abstract

The representation (or feature) learning has been an emerging concept in the last years, since it collects a set of techniques that are present in any theoretical or practical methodology referring to artificial intelligence. In computer vision, a very common representation has adopted the form of the well-known Bag of Visual Words. This representation appears implicitly in most approaches where images are described, and is also present in a huge number of areas and domains: image content retrieval, pedestrian detection, human-computer interaction, surveillance, e-health, and social computing, amongst others. The early stages of this dissertation provide an approach for learning visual representations inside evolutionary algorithms, which consists of evolving weighting schemes to improve the BoVW representations for the task of recognizing categories of videos and images. Thus, we demonstrate the applicability of the most common weighting schemes, which are often used in text mining but are less frequently found in computer vision tasks. Beyond learning these visual representations, we provide an approach based on fusion strategies for learning spatiotemporal representations, from multimodal data obtained by depth sensors. Besides, we specially aim at the evolutionary and dynamic modelling, where the temporal factor is present in the nature of the data, such as video sequences of gestures and actions. Indeed, we explore the effects of probabilistic modelling for those approaches based on dynamic programming, so as to handle the temporal deformation and variance amongst video sequences of different categories. Finally, we integrate dynamic programming and generative models into an evolutionary computation framework, with the aim of learning Bags of SubGestures (BoSG) representations and hence to improve the generalization capability of standard gesture recognition approaches. The results obtained in the experimentation demonstrate, first, that evolutionary algorithms are useful for improving the representation of BoVW approaches in several datasets for recognizing categories in still images and video sequences. On the other hand, our experimentation reveals that both, the use of dynamic programming and generative models to align video sequences, and the representations obtained from applying fusion strategies in multimodal data, entail an enhancement on the performance when recognizing some gesture categories. Furthermore, the combination of evolutionary algorithms with models based on dynamic programming and generative approaches results, when aiming at the classification of video categories on large video datasets, in a considerable improvement over standard gesture and action recognition approaches. Finally, we demonstrate the applications of these representations in several domains for human analysis: classification of images where humans may be present, action and gesture recognition for general applications, and in particular for conversational settings within the field of restorative justice.


L’aprenentatge de la representació (o de característiques) ha estat un concepte emergent en els darrers anys, ja que recopila un conjunt de tècniques que són presents en qualsevol metodologia teòrica o pràctica referent a la intel·ligència artifcial. En la visió per computador, una representació molt comuna ha adoptat la forma de la ben coneguda Bossa de Paraules Visuals (BdPV). Aquesta representació apareix implícitament en la majoria d’aproximacions per descriure imatges, i és també present en un enorme nombre d’àrees i dominis: recuperació de contingut en imatges, detecció de vianants, interacció humà-ordinador, vigilància, e-salut, i la computació social, entre d’altres. Les fases inicials d’aquesta dissertació proporcionen una aproximació per aprendre representacions visuals dins d’algorismes evolutius, que consisteix en evolucionar esquemes de pesat per millorar les representacions BdPV en la tasca de reconèixer les categories de vídeos i imatges. Per tant, demostrem l’aplicabilitat dels esquemes de pesat més comuns, que s’usen sovint en la mineria de textos però es troben amb menys freqüència en tasques de visió per computador. Més enllà d’aprendre representacions visuals, proporcionem una aproximació basada en estratègies de fusió per a l’aprenentatge de representacions espai- temporals, a partir de dades multi-modals obtingudes per sensors de profunditat. A més, el nostre objectiu és especialment el modelatge evolutiu i dinàmic, on el factor temporal és present en la naturalesa de les dades, com les seqüències de gestos i accions. De fet, explorem els efectes del modelatge probabilístic per aquelles aproximacions basades en programació dinàmica per a gestionar la deformació temporal i variància entre seqüències de vídeo de categories diferents. Finalment, integrem la programació dinàmica i els models generatius en un marc de computació evolutiva, amb l’objectiu d’aprendre representacions en Bosses de SubGestos i, per tant, millorar la capacitat de generalització de les aproximacions estàndards pel reconeixement de gestos. Els resultats obtinguts en l’experimentació demostra, en primer lloc, que els algorismes evolutius són útils per millorar la representació d’aproximacions BdPV en diverses bases de dades pel reconeixement de categories en imatges fxes i seqüències de vídeo. Per altra banda, la nostra experimentació revela que, tant l’ús de la programació dinàmica i els models generatius per alinear seqüències de vídeos, com les representacions obtingudes d’aplicar estratègies de fusió en dades multi-modals, comporten una millora en el rendiment a l’hora de reconèixer algunes categories de gestos. A més a més, la combinació d’algorismes evolutius amb models basats en programació dinàmica i aproximacions generatives resulten, a l’hora de classifcar categories de vídeos de bases de dades grans, en una millora considerable sobre les aproximacions estàndards de reconeixement de gestos i accions. Finalment, demostrem les aplicacions d’aquestes representacions en varis dominis per a l’anàlisi humà: classifcació d’imatges on els humans poden ser-hi presents, el reconeixement d’accions i gestos per aplicacions en general, i en particular per entorns conversacionals dins del camp de la justícia restaurativa.


El aprendizaje de la representación (o de características) ha sido un concepto emergente en los últimos años, ya que recopila un conjunto de técnicas que están presentes en cualquier metodología teórica o práctica referente a la inteligencia artificial. En la visión por computador, una representación muy comuna ha adoptado la forma de la bien conocida Bolsa de Palabras Visuales (BdPV). Esta representación aparece implícitamente en la mayoría de aproximaciones para describir imágenes, y está también presente en un enorme número de áreas y dominios: recuperación de contenido en imágenes, detección de peatones, interacción humano-ordenador, vigilancia, e-salud, y la computación social, entre otras. Las fases iniciales de esta disertación proporcionan una aproximación para aprender representaciones visuales dentro de algoritmos evolutivos, que consisten en evolucionar esquemas de pesado para mejorar las representaciones BdPV en la tarea de reconocer las categorías de vídeos e imágenes. Por lo tanto, demostramos la aplicabilidad de los esquemas de pesado más comunes, que se utilizan a menudo en la minería de textos pero se encuentran con menos frecuencia en tareas de visión por computador. Más allá de aprender representaciones visuales, proporcionamos una aproximación basada en estrategias de fusión para el aprendizaje de representaciones espacio-temporales, a partir de datos multimodales obtenidos por sensores de profundidad. También, nuestro objetivo es especialmente el modelado evolutivo y dinámico, donde el factor temporal está presente en la naturaleza de los datos, como las secuencias de gestos y acciones. De hecho, exploramos los efectos del modelado probabilístico para aquellas aproximaciones basadas en programación dinámica para gestionar la deformación temporal y varianza entre secuencias de vídeo de categorías diferentes. Finalmente, integramos la programación dinámica y los modelos generativos en un marco de computación evolutiva, con el objetivo de aprender representaciones en Bolsas de SubGestos, y por lo tanto mejorar la capacidad de generalización de las aproximaciones estándares para el reconocimiento de gestos. Los resultados obtenidos en la experimentación demuestra, en primer lugar, que los algoritmos evolutivos son útiles para mejorar la representación de aproximaciones BdPV en diversas bases de datos para el reconocimiento de categorías en imágenes fijas y secuencias de vídeo. Por otra parte, nuestra experimentación revela que, tanto el uso de la programación dinámica y los modelos generativos para alinear secuencias de vídeos, como las representaciones obtenidas de aplicar estrategias de fusión en datos multimodales, conllevan una mejora en el rendimiento a la hora de reconocer algunas categorías de gestos. Además, la combinación de algoritmos evolutivos con modelos basados en programación dinámica y aproximaciones generativas resultan, a la hora de clasificar categorías de vídeos de bases de datos grandes, en una mejora considerable sobre las aproximaciones estándares de reconocimiento de gestos y acciones. Finalmente, demostramos las aplicaciones de estas representaciones en varios dominios para el análisis humano: clasificación de imágenes donde los humanos pueden estar presentes, el reconocimiento de acciones y gestos para aplicaciones en general, y en particular para entornos conversacionales dentro del campo de la justicia restaurativa.

Keywords

Algorismes computacionals; Algoritmos computacionales; Computer algorithms; Processament digital d'imatges; Proceso digital de imágenes; Digital image processing; Vídeo digital; Digital video; Anàlisi de variància; Análisis de varianza; Analysis of variance; Programació dinàmica; Programación dinámica; Dynamic programming; Computació evolutiva; Computación evolutiva; Evolutionary computation; Gest; Gestos; Gesture

Subjects

51 - Mathematics

Knowledge Area

Ciències Experimentals i Matemàtiques

Documents

VPL_PhD_THESIS.pdf

20.45Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)