Looking at Faces: Detection, Tracking and Pose Estimation

Author

Al Haj, Murad

Director

Gonzàlez i Sabaté, Jordi

Codirector

Roca i Marvà, Francesc Xavier

Date of defense

2013-02-22

ISBN

9788449036798

Pages

102 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament de Ciències de la Computació

Abstract

Els éssers humans podem percebre molt fàcilment les cares, les podem seguir en l’espai i temps, així com descodificar el seu contingut, com la seva postura, identitat o expressió. No obstant això, tot i moltes dècades d’investigació per desenvolupar un sistema amb percepció automàtica de cares, segueix sent difícil d’aconseguir una solució completa en àrees com la detecció de cares, el reconeixement de l’expressió facial, la estimació de la posició o el reconeixement de la cara. Això és degut a que la percepció facial automàtica abasta moltes àrees importants i difícils de la visió per computador: les aplicacions finals abasten una gamma molt àmplia com la vídeo vigilància, interacció humà-ordinador, la indexació i recuperació del contingut d’imatges, la identificació biomètrica , la codificació de vídeo i el reconeixement de l’edat i / o sexe. En particular, aquesta tesi està dedicada a tres grans problemes en la percepció automàtica de cares: la detecció de rostres, el seguiment de cares i l’estimació de la posició facial. En el camp de la detecció de rostres, es presenta un model que utilitza múltiples heurístiques senzilles ad-hoc basades en píxels per detectar les regions de la imatge corresponents a pell humana. A més, s’han estudiat diferents espais de color per determinar si hi ha alguna transformació d’espai de color que pugui millorar la detecció del color de la pell. Els resultats experimentals mostren que la separabilitat no augmenta gaire en altres espais de color en comparació amb l’obtinguda en l’espai RGB. A partir del millor espai de color trobat, s’ha dissenyat un detector de cares capaç de generalitzar amb èxit en diferentes escenes. Com a segona aportació, s’ha desenvolupat un algorisme per al seguiment robust i precís de la cara, dins d’un marc unificat que combina l’estimació dels paràmetres facials amb el control d’una càmera activa, per al seguiment de cares mitjançant una càmera Pa- Tilt-Zoom. Un filtre de Kalman estès permet estimar conjuntament les coordenades món dels objectes i la posició de la càmera. La sortida s’utilitza per accionar un controlador PID per tal de realitzar un seguiment reactiu del rostre, generant les accions de control correctes no només per mantenir un zoom-in a la cara per maximitzar la mida, sinó també per poder allunyar i reduir el risc de perdre l’objectiu. Encara que aquest treball està principalment motivat per fer un seguiment de cares, es pot aplicar fàcilment com ajuda d’un detector d’objectes per rastrejar una escena amb una càmera activa. L’aplicabilitat del mètode s’ha demostrat tant en entorns simulats com a escenaris reals. S’ha dedicat l’última i més important part d’aquesta tesi a l’estimació de la posició del cap. En la majoria de treballs previs per a l’estimació de la posició del cap, s’especifiquen les cares manualment. Per tant, els resultats detallats no tenen en compte una possible desalineació de la cara, encara que tant en regressió com en classificació, els algoritmes són generalment sensibles a un error en localització: si l’objecte no està ben alineat amb el model après, la comparació entre les característiques de l’objecte en la imatge i les del model condueix a errors. En aquest últim capítol, es proposa un mètode basat en regressió per mínims quadrats parcials per estimar la posició i a més resoldre simultàniament l’alineació de la cara. Les contribucions en aquesta part són de dos tipus: 1) es mostra que el mètode proposat assoleix millors resultats que l’estat de l’art i 2) es desenvolupa una tècnica per reduir la desalineació basat en factors PLS que milloren l’aprenentatge basat en múltiples instàncies sense la necessitat de tornar a aprendre o d’haver d’incloure mostres mal alineades, ambdós pasos normalment necessaris en l’aprenentatge basat en múltiples instàncies.


Los seres humanos pueden percibir muy fácilmente las caras, las pueden seguir en el espacio y tiempo, así como decodificar su contenido, como su postura, identidad y expresión. Sin embargo, a pesar de muchas décadas de investigación para desarrollar un sistema con percepción automática de caras, una solución completa sigue siendo difícil de alcanzar en áreas como la detección de caras, el reconocimiento de la expresión facial, la estimación de la posición o el reconocimiento del rostro. Esto es debido a que la percepción facial automática involucra muchas áreas importantes y difíciles de la visión por computador, cuyas aplicaciones finales abarcan una gama muy amplia como la video vigilancia, interacción humano-computadora, la indexación y recuperación del contenido de imágenes, la identificación biométrica, la codificación de vídeo y el reconocimiento de la edad y/o sexo. En particular, esta tesis está dedicada a tres grandes problemas en la percepción automática de caras: la detección de rostros, el seguimiento de caras y la estimación de la posición facial. En el campo de la detección de rostros, se presenta un modelo que utiliza múltiples heurísticas sencillas ad-hoc basadas en píxeles para detectar las regiones de la imagen correspondientes a piel humana. Además, se han estudiado diferentes espacios de color para determinar si existe alguna transformación de espacio de color que puede mejorar la detección del color de la piel. Los resultados experimentales muestran que la separabilidad no aumenta demasiado en otros espacios de color en comparación con la obtenida en el espacio RGB. A partir del mejor espacio de color, se ha diseñado un detector de caras capaz de generalizar en diferentes escenarios con éxito. Como segunda aportación, se ha desarrollado un algoritmo para el seguimiento robusto y preciso de la cara, dentro de un marco unificado que combina la estimación de los parámetros faciales con el control de una cámara activa, para el seguimiento de caras mediante una cámara Pan-Tilt-Zoom. Un filtro de Kalman extendido permite estimar conjuntamente las coordenadas mundo de los objetos así como la posición de la cámara. La salida se utiliza para accionar un controlador PID con el fin de realizar un seguimiento reactivo del rostro, generando las acciones de control correctas no solo para mantener un zoom-in en la cara para maximizar el tamaño, sino también para poder alejarse y reducir el riesgo de perder el objetivo. Aunque este trabajo está principalmente motivado para realizar un seguimiento de caras, se puede aplicar fácilmente como ayuda de un detector de objetos para rastrear una escena con una cámara activa. La aplicabilidad del método se ha demostrado tanto en entornos simulados como en escenarios reales. Se ha dedicado la última y más importante parte de esta tesis a la estimación de la postura de la cabeza. En la mayoría de trabajos previos para la estimación de la posición de la cabeza, se especifica manualmente las caras. Por tanto, los resultados detallados no tienen en cuenta una posible desalineación de la cara, aunque tanto en regresión como en clasificación, los algoritmos son generalmente sensibles a este error en localización: si el objeto no está bien alineado con el modelo aprendido, la comparación entre las características del objeto en la imagen y las del modelo conduce a errores. En este último capítulo, se propone un método basado en regresión por mínimos cuadrados parciales para estimar la postura y además resolver la alineación de la cara simultáneamente. Las contribuciones en esta parte son de dos tipos: 1) se muestra que el método propuesto alcanza mejores resultados que el estado del arte y 2) se desarrolla una técnica para reducir la desalineación basado en factores PLS que mejoran el aprendizaje basado en múltiples instancias sin la necesidad de re-aprender o tener que incluir muestras mal alineadas, ambos normalmente necesarios en el aprendizaje basado en múltiples instancias.


Humans can effortlessly perceive faces, follow them over space and time, and decode their rich content, such as pose, identity and expression. However, despite many decades of research on automatic facial perception in areas like face detection, expression recognition, pose estimation and face recognition, and despite many successes, a complete solution remains elusive. Automatic facial perception encompasses many important and challenging areas of computer vision and its applications span a very wide range; these applications include video surveillance, human-computer interaction, content-based image retrieval, biometric identification, video coding and age/gender recognition. This thesis is dedicated to three problems in automatic face perception, namely face detection, face tracking and pose estimation. In face detection, an initial simple model is presented that uses pixel-based heuristics to segment skin locations and hand-crafted rules to return the locations of the faces present in the image. Different colorspaces are studied to judge whether a colorspace transformation can aid skin color detection. Experimental results show that the separability does not increase in other colorspaces when compared to the RGB space. The output of this study is used in the design of a more complex face detector that is able to successfully generalize to different scenarios. In face tracking, we present a framework that combines estimation and control in a joint scheme to track a face with a single pan-tilt-zoom camera. An extended Kalman filter is used to jointly estimate the object world-coordinates and the camera position. The output of the filter is used to drive a PID controller in order to reactively track a face, taking correct decisions when to zoom-in on the face to maximize the size and when to zoom-out to reduce the risk of losing the target. While this work is mainly motivated by tracking faces, it can be easily applied atop of any detector to track different objects. The applicability of this method is demonstrated on simulated as well as real-life scenarios. The last and most important part of this thesis is dedicate to monocular head pose estimation. In most prior work on heads pose estimation, the positions of the faces on which the pose is to be estimated are specified manually. Therefore, the results are reported without studying the effect of misalignment. Regression, as well as classification, algorithms are generally sensitive to localization error. If the object is not accurately registered with the learned model, the comparison between the object features and the model features leads to errors. In this chapter, we propose a method based on partial least squares regression to estimate pose and solve the alignment problem simultaneously. The contributions of this part are two-fold: 1) we show that the proposed method achieves better than state-of-the-art results on the estimation problem and 2) we develop a technique to reduce misalignment based on the learned PLS factors that outperform multiple instance learning (MIL) without the need for any re-training or the inclusion of misaligned samples in the training process, as normally done in MIL.

Keywords

face detection; pose estination; computer vision

Subjects

62 - Engineering. Technology in general

Knowledge Area

Tecnologies

Documents

mah1de1.pdf

1.031Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)