Content-based audio search: from fingerprinting to semantic audio retrieval

Autor/a

Cano Vila, Pedro

Director/a

Serra, Xavier

Data de defensa

2007-04-27

ISBN

9788469112052

Dipòsit Legal

B.42899-2007



Departament/Institut

Universitat Pompeu Fabra. Departament de Tecnologia

Programa de doctorat

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Resum

Aquesta tesi tracta de cercadors d'audio basats en contingut. Específicament, tracta de desenvolupar tecnologies que permetin fer més estret l'interval semàntic o --semantic gap' que, a avui dia, limita l'ús massiu de motors de cerca basats en contingut. Els motors de cerca d'àudio fan servir metadades, en la gran majoria generada per editors, per a gestionar col.leccions d'àudio. Tot i ser una tasca àrdua i procliu a errors, l'anotació manual és la pràctica més habitual. Els mètodes basats en contingut àudio, és a dir, aquells algorismes que extreuen automàticament etiquetes descriptives de fitxers d'àudio, no són generalment suficientment madurs per a permetre una interacció semàntica. En la gran majoria, els mètodes basats en contingut treballen amb descriptors de baix nivell, mentre que els descriptors d'alt nivell estan més enllà de les possibilitats actuals. En la tesi explorem mètodes, que considerem pas previs per a atacar l'interval semàntic.


This dissertation is about audio content-based search. Specifically, it is on developing technologies for bridging the semantic gap that currently prevents wide-deployment of audio content-based search engines.<br/>Audio search engines rely on metadata, mostly human generated, to manage collections of audio assets.<br/>Even though time-consuming and error-prone, human labeling is a common practice.<br/>Audio content-based methods, algorithms that automatically extract description from audio files, are generally not mature enough to provide a user friendly representation for interacting with audio content. Mostly, content-based methods are based on low-level descriptions, while high-level or semantic descriptions are beyond current capabilities. In this thesis we explore technologies that can help close the semantic gap.

Paraules clau

búsqueda de información basada en contenido; classificacio d'audio; ontologies; identificacio d'audio; recuperacio d'informacio audio; cerca d'audio basada en contingut; audio classification; wordnet; ontology; audio fingerprinting; audio retrieval; content based audio search; recuperación de información de audio; identificación de audio; ontologías; clasificación de áudio

Matèries

531/534 - Mecànica. Vibracions. Acústica; 68 - Indústries, oficis i comerç d'articles acabats. Tecnologia cibernètica i automàtica; 78 - Música

Documents

tpcv.pdf

2.660Mb

 

Drets

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Aquest element apareix en la col·lecció o col·leccions següent(s)