Automating user-centered design of data-intensive processes

Autor/a

Theodorou, Vasileios

Director/a

Abelló, Alberto

Lehner, Wolfgang

Fecha de defensa

2017-01-27

Páginas

151 p.



Departamento/Instituto

Universitat Politècnica de Catalunya. Departament d'Enginyeria de Serveis i Sistemes d'Informació

Resumen

Business Intelligence (BI) enables organizations to collect and analyze internal and external business data to generate knowledge and business value, and provide decision support at the strategic, tactical, and operational levels. The consolidation of data coming from many sources as a result of managerial and operational business processes, usually referred to as Extract-Transform-Load (ETL) is itself a statically defined process and knowledge workers have little to no control over the characteristics of the presentable data to which they have access. There are two main reasons that dictate the reassessment of this stiff approach in context of modern business environments. The first reason is that the service-oriented nature of today's business combined with the increasing volume of available data make it impossible for an organization to proactively design efficient data management processes. The second reason is that enterprises can benefit significantly from analyzing the behavior of their business processes fostering their optimization. Hence, we took a first step towards quality-aware ETL process design automation by defining through a systematic literature review a set of ETL process quality characteristics and the relationships between them, as well as by providing quantitative measures for each characteristic. Subsequently, we produced a model that represents ETL process quality characteristics and the dependencies among them and we showcased through the application of a Goal Model with quantitative components (i.e., indicators) how our model can provide the basis for subsequent analysis to reason and make informed ETL design decisions. In addition, we introduced our holistic view for a quality-aware design of ETL processes by presenting a framework for user-centered declarative ETL. This included the definition of an architecture and methodology for the rapid, incremental, qualitative improvement of ETL process models, promoting automation and reducing complexity, as well as a clear separation of business users and IT roles where each user is presented with appropriate views and assigned with fitting tasks. In this direction, we built a tool "POIESIS" which facilitates incremental, quantitative improvement of ETL process models with users being the key participants through well-defined collaborative interfaces. When it comes to evaluating different quality characteristics of the ETL process design, we proposed an automated data generation framework for evaluating ETL processes (i.e., Bijoux). To this end, we classified the operations based on the part of input data they access for processing, which facilitated Bijoux during data generation processes both for identifying the constraints that specific operation semantics imply over input data, as well as for deciding at which level the data should be generated (e.g., single field, single tuple, complete dataset). Bijoux offers data generation capabilities in a modular and configurable manner, which can be used to evaluate the quality of different parts of an ETL process. Moreover, we introduced a methodology that can apply to concrete contexts, building a repository of patterns and rules. This generated knowledge base can be used during the design and maintenance phases of ETL processes, automatically exposing understandable conceptual representations of the processes and providing useful insight for design decisions. Collectively, these contributions have raised the level of abstraction of ETL process components, revealing their quality characteristics in a granular level and allowing for evaluation and automated (re-)design, taking under consideration business users' quality goals.


Business Intelligence (BI) permite a las organizaciones recolectar y analizar datos empresariales internos y externos para generar conocimiento y valor de negocio y proporcionar soporte de decisión en los niveles estratégico, táctico y operacional. La consolidación de datos procedentes de muchas fuentes como resultado de los procesos empresariales gerenciales y operacionales, denominados Extract-Transform-Load (ETL), es en sí mismo un proceso estáticamente definido y los trabajadores del conocimiento tienen poco o ningún control sobre las características de la Datos a los que tienen acceso. Hay dos razones principales que dictan la reevaluación de este enfoque rígido en el contexto de los entornos empresariales modernos. El carácter orientado al servicio de los negocios de hoy, combinado con el creciente volumen de datos disponibles, hace imposible que una organización diseñe proactivamente procesos eficientes de gestión de datos. Además, las empresas pueden beneficiarse significativamente de analizar el comportamiento de sus procesos empresariales fomentando su optimización. Dimos un primer paso hacia la automatización del diseño de procesos ETL de calidad, definiendo a través de una revisión sistemática de la literatura un conjunto de características de calidad del proceso ETL y las relaciones entre ellas, y proporcionando medidas cuantitativas para cada característica. Posteriormente, se produjo un modelo que representa las características de la calidad del proceso ETL y las dependencias entre ellas y se mostró a través de la aplicación de un modelo de meta con componentes cuantitativos cómo nuestro modelo puede proporcionar la base para el análisis posterior para razonar y hacer informados Decisiones de diseño ETL. Además, presentamos nuestra visión holística para un diseño consciente de la calidad de los procesos de ETL presentando un marco para el ETL declarativo centrado en el usuario. Esto incluyó la definición de una arquitectura y una metodología para la mejora rápida, incremental y cualitativa de los modelos de procesos ETL, la promoción de la automatización y la reducción de la complejidad, así como una clara separación entre los usuarios empresariales y los roles de TI donde cada usuario Con tareas de ajuste. En esta dirección, construimos una herramienta -POIESIS- que facilita la mejora incremental y cuantitativa de los modelos de proceso ETL, siendo los usuarios los participantes clave a través de interfaces de colaboración bien definidas. Cuando se trata de evaluar diferentes características de calidad del diseño del proceso ETL, hemos propuesto un marco automatizado de generación de datos para evaluar procesos ETL (Bijoux). Para ello, clasificamos las operaciones basadas en la parte de datos de entrada que acceden para procesamiento, lo que facilitó a Bijoux durante los procesos de generación de datos, tanto para identificar las restricciones que la semántica de operación específica implica sobre los datos de entrada como para decidir a qué nivel Los datos deben ser generados (por ejemplo, campo único, única tupla, conjunto de datos completo). Bijoux ofrece capacidades de generación de datos de forma modular y configurable, que pueden usarse para evaluar la calidad de diferentes partes de un proceso ETL. Además, hemos introducido una metodología que puede aplicarse a contextos concretos, construyendo un repositorio de patrones y reglas. Esta base de conocimiento generada puede utilizarse durante las fases de diseño y mantenimiento de los procesos ETL, exponiendo automáticamente las representaciones conceptuales comprensibles de los procesos y proporcionando una visión útil para las decisiones de diseño. En conjunto, estas contribuciones han elevado el nivel de abstracción de los componentes del proceso ETL, revelando sus características de calidad en un nivel granular y permitiendo la evaluación y el (re) diseño automatizado, tomando en consideración los objetivos de calidad de los usuarios empresariales.

Materias

004 - Informática

Área de conocimiento

Àrees temàtiques de la UPC::Informàtica

Documentos

TVT1de1.pdf

4.050Mb

 

Derechos

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Este ítem aparece en la(s) siguiente(s) colección(ones)