Aportacions en el camp del Llinatge Geospacial en entorns istribuïts: de la captura a l’explotació

Author

Closa Santos, Guillem

Director

Masó Pau, Joan

Tutor

Pons, Xavier

Date of defense

2021-01-29

Pages

194 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Geografia

Abstract

El llinatge geospacial es pot definir com aquella part de les metadades que descriu l’origen de les dades (essencialment fonts i processos emprats). Aquest té una reconeguda utilitat en la descoberta de dades, anàlisi de la qualitat i en la reproductibilitat de la informació geogràfica, entre d’altres beneficis. Malgrat l’existència de literatura científica i de models de dades ad hoc per representar-lo, la presència d’informació de llinatge a les metadades geospacials és en general encara escassa, i quan hi és present, no és completa. La hipòtesi principal d’aquesta tesi doctoral es basa en que l’absència força generalitzada d’informació de llinatge dins les metadades actua com a factor limitador en la interoperabilitat i la reproductibilitat de dades, processos i models geospacials tan en entorns científics com administratius. Davant d’aquest escenari, són necessàries investigacions que proposin nous mecanismes per potenciar una major incorporació de la informació del llinatge en les metadades geospacials. Aquesta tesi doctoral investiga, en primer lloc, les carències en les fases de representació, captura, emmagatzematge i visualització del llinatge. En segon lloc, proposa alternatives, tan a nivell teòric com aplicat, que potenciïn una millor descripció del llinatge alhora que incrementin la seva presència en les metadades. Finalment, planteja metodologies per augmentar-ne la seva utilitat tan en el context dels Sistemes d’Informació Geogràfica (SIG) com en entorns web distribuïts. Els capítols 2, 3, 4 i 6 fan propostes per millorar les capacitats dels models. En concret, el capítol 2 proposa una adaptació del model W3C PROV (model genèric per descriure el llinatge de tot tipus d’informació a la web) a les singularitats de la informació geogràfica i aprofitar les seves característiques per descriure el llinatge a nivell de conjunt d’informació, d’element geospacial i d’atribut. Els capítols 3 i 4 proposen l’ús combinat dels models de llinatge inclosos a la ISO 19115-1 i la ISO 19115-2 amb l’estàndard Web Processing Service (WPS) de l’Open Geospatial Consortium (OGC) per millorar-ne la completesa. Finalment, el capítol 6 emfatitza en la necessitat de representar i relacionar el llinatge de diversos conjunts de dades per maximitzar-ne els beneficis. Els capítols 3 i 4 presenten una eina anomenada Provenance Engine (PE). L’eina, implementada en el marc del programa de SIG i Teledetecció MiraMon, captura automàticament el llinatge de les execucions realitzades amb el programa. Eines que facilitin la interpretació del llinatge són necessàries i tenen un impacte directe en la seva comprensió i ús. En aquest sentit, el MiraMon permet visualitzar el llinatge com un seqüència de processos. Cada procés té una llista indentada amb tots els paràmetres utilitzats i les sortides generades. A més, el capítol 6 presenta un sistema alternatiu que proporciona i renderitza la informació de llinatge com un graf en un entorn distribuït. En darrer lloc, s’ha treballat en generar propostes que incrementin la utilitat del llinatge i aportin un valor afegit al seu ús. El capítol 5 estableix les bases teòriques per realitzar consultes sobre la informació de llinatge de dades de teledetecció per tal de rebre només aquells fragments de dades o processos que ens poden interessar en un moment determinat. Finalment, el capítol 6 amplia i complementa el capítol 5. En concret, presenta el disseny d’un sistema de consultes inserit en un navegador de mapes. El disseny permet presentar la informació de llinatge de diverses capes incloses en el navegador en una sola vista, veure les interaccions i fer comparacions de fluxos que han donat lloc als diversos conjunts de dades.


El linaje geoespacial se puede definir como aquella parte de los metadatos que describe el origen de los datos (esencialmente fuentes y procesos utilizados). Este tiene una reconocida utilidad en el descubrimiento, análisis de la calidad y en la reproducibilidad de la información geográfica, entre otros beneficios. A pesar de la existencia de literatura científica y de modelos de representación ad hoc, la presencia de información de linaje en los metadatos geoespaciales es en general todavía escasa, y cuando está presente, no es completa. La hipótesis principal de esta tesis doctoral se basa en que la ausencia generalizada de información de linaje dentro de los metadatos geoespaciales actúa como factor limitador en la interoperabilidad y la reproducibilidad de datos, procesos y modelos geoespaciales tanto en entornos científicos como administrativos. Ante este escenario, son necesarias investigaciones que propongan nuevos mecanismos para potenciar una mayor incorporación de la información del linaje en los metadatos geoespaciales. Con este fin, esta tesis doctoral investiga, en primer lugar, las carencias en las fases de representación, captura, almacenamiento y visualización del linaje. En segundo lugar, propone alternativas, tanto a nivel teórico como aplicado, que potencien una mejor descripción del linaje a su vez que incrementen su presencia en los metadatos. Finalmente, plantea metodologías para aumentar su utilidad tanto en el contexto de los Sistemas de Información Geográfica (SIG) como en entornos web distribuidos. Los capítulos 2, 3, 4 y 6 realizan propuestas para mejorar las capacidades de los modelos. En concreto, el capítulo 2 propone una adaptación del modelo W3C PROV (modelo genérico para describir el linaje de todo tipo de información en la web) a las singularidades de la información geográfica y aprovechar sus características para describir el linaje a nivel de conjunto de datos, de elemento geoespacial y de atributo. Los capítulos 3 y 4 proponen el uso combinado de los modelos de linaje incluidos en la ISO 19115-1 y la ISO 19115-2 con el estándar Web Processing Service (WPS) del Open Geospatial Consortium (OGC) para mejorar su completitud. Finalmente, el capítulo 6 enfatiza en la necesidad de representar y relacionar el linaje de distintos conjuntos de datos con el objetivo de maximizar los beneficios que nos aporta. Los capítulos 3 y 4 presentan una herramienta llamada Provenance Engine (PE). La herramienta, implementada en el marco del programa de SIG y Teledetección MiraMon, captura automáticamente el linaje de las ejecuciones realizadas con el programa. Herramientas que faciliten la interpretación del linaje son necesarias y tienen un impacto directo en su comprensión y uso. En este sentido, el MiraMon permite visualizar el linaje como una secuencia de procesos. Cada proceso tiene una lista indentada con todos los parámetros utilizados y las salidas generadas. Además, el capítulo 6 presenta un sistema alternativo que proporciona y renderiza la información de linaje como un grafo en un entorno distribuido. En último lugar, se ha trabajado para generar propuestas que incrementen la utilidad del linaje y aporten valor añadido a su uso. El capítulo 5 establece las bases teóricas para realizar consultas sobre la información del linaje de datos de teledetección con el objetivo de recibir sólo aquellos fragmentos de datos o procesos que nos pueden interesar en un momento determinado. Finalmente, el capítulo 6 amplía y complementa el capítulo 5. En concreto, presenta el diseño de un sistema de consultas insertado en un navegador de mapas. El sistema permite presentar la información de linaje de distintos conjuntos de datos incluidos en el navegador en una sola vista, ver las interacciones y hacer comparaciones de los flujos que han dado lugar a los distintos conjuntos de datos.


Geospatial lineage can be defined as the part of metadata that describes the origin of the data (in essence, sources and processes used). Its usefulness has been recognized in data discovery, quality assessment, and reproducibility of geographic information. Despite the existence of scientific literature and data models to represent it, the presence of lineage information in geospatial metadata is generally still scarce, and when present, this is not comprehensive enough. The main hypothesis of this PhD is based on the evidence the absence of lineage information in geospatial metadata acts as a barrier for the interoperability and reproducibility of data, processes and geospatial models, in both scientific and administrative environments. In this scenario, a further research is needed in order to propose new mechanisms to promote a greater incorporation of lineage information into geospatial metadata. Firstly, this PhD investigates the deficiencies in the phases of representation, capture, storage and visualization of the lineage information. Secondly, it proposes alternatives, both at theoretical and practical level, that promote a better description of lineage to increase its presence in the metadata. Finally, it proposes methodologies to increase its usefulness in both, in the context of Geographic Information Systems (GIS) as well as in distributed web environments. Chapters 2, 3, 4, and 6 make proposals to improve the capabilities of the models. Specifically, chapter 2 proposes an adaptation of the W3C PROV model (a generic model to describe the lineage of all types of information on the web) to the particularities of geographic information in order to describe lineage at layer, feature and attribute level. Chapters 3 and 4 propose the combination of the lineage models included in ISO 19115-1 and ISO 19115-2 with Web Processing Service (WPS) standard from the Open Geospatial Consortium (OGC) to improve the completeness of the lineage data model. Finally, chapter 6 emphasizes the need to represent and relate the lineage of different datasets to maximize benefits. Chapters 3 and 4 present a tool called Provenance Engine (PE). The tool, developed in the framework of MiraMon GIS and Remote Sensing software, captures automatically the lineage of executions performed by MiraMon. Tools to enhance the interpretation of lineage are necessary as has a direct impact on its understanding and usefulness. In this sense, MiraMon allows to visualize lineage as an indented sequence of processes including all parameters used and the outputs generated. In addition, chapter 6 presents a system that provides and renders lineage information as a graph in a distributed web environment. Finally, some proposals have been formulated to increase the usefulness and provide an added value to lineage. Chapter 5 sets a theoretical basis for querying lineage information on remote sensing data in order to receive only those fragments of data or processes that we are interested on. Finally, chapter 6 expands and complements the work presented in chapter 5. Specifically, it provides the design of a query system embedded within a map browser that allows presenting lineage information of some layers included in the browser in a single view, as well as compare the workflows executed to generate the different datasets.

Keywords

Metadades; Metadatos; Metadata; Llinatge; Linaje; Lineage; Estàndars; Estándares; Standars

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Ciències Socials

Documents

gcs1de1.pdf

10.04Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)