Sistematización del proceso de depuración de los datos en estudios con seguimientos

Author

Bonillo Martín, Albert

Director

Granero Pérez, Roser

Domènech i Massons, Josep M.

Date of defense

2003-09-15

ISBN

8468838934

Legal Deposit

B-43787-2003



Department/Institute

Universitat Autònoma de Barcelona. Departament de Psicobiologia i de Metodologia de les Ciències de la Salut

Abstract

El objetivo principal de esta tesis es realizar un análisis exhaustivo de los errores de tipo lógico que pueden presentarse en los datos ya grabados y aportar un procedimiento sistemático original para detectarlos y corregirlos. Para ello se ha programado un conjunto de macros SPSS que permiten detectar todos estos errores, generar de forma totalmente automática un informe de incidencias para corregirlos y ofrecer una estadística final de errores. Los algoritmos de estas macros son fácilmente transportables a SAS o a otros sistemas.<br/>El procedimiento propuesto consiste en crear un archivo de sintaxis con un conjunto de llamadas a macros que realizan el proceso de acuerdo con las siguientes fases: 1) lectura de la tabla con los datos originales grabados; 2) depurar el identificador para garantizar que cada registro está unívocamente identificado y se adecua a las formas normales de integridad referencial de la teoría relacional; 3) corregir las incidencias detectadas en el indentificador; 4) incorporar las variables de referencia de otras tablas que sean necesarias para depurar la tabla de datos; 5) depurar las variables de salto; 6) corregir las incidencias detectadas en las variables de salto; 7) depurar el resto de variables del estudio, detectando las incidencias que sean consecuencia de inconsistencias y los valores desconocidos; 8) corregir las incidencias detectadas, introduciendo el valor correcto o valor desconocido si no se conoce el valor correcto; y 9) generar una estadística de los errores detectados y de los valores desconocidos presentes en la matriz de datos depurados.<br/>El proceso comporta realizar de forma iterativa las fases de chequeo y corrección hasta que las únicas incidencias detectadas sean valores desconocidos no recuperables. Asimismo, el proceso incorpora un historial de cambios que permita conocer todas las modificaciones efectuadas sobre los datos originales. <br/>La tesis se estructura en seis capítulos, los tres primeros de carácter teórico y los tres últimos aplicados.<br/>El capítulo primero revisa de forma sucinta los conceptos básicos de "medida" en psicología y "error", así como los controles que se deben implementar para minimizar las incidencias en el proceso de los datos, distinguiendo entre aquellos que son aplicables a la captura diferida y los que lo son a la captura directa. <br/>El segundo capítulo se centra en la definición operativa del error en el proceso de la gestión de los datos, exponiendo la necesidad de evaluar la calidad de la información previamente a su análisis estadístico e introduciendo el concepto de depuración.<br/>En el tercer capítulo se revisan múltiples controles propuestos para distintas tipologías de variables. Se muestran técnicas de detección de errores por registros duplicados, en variables cuantitativas, en variables categóricas, etc. Así mismo, se presentan técnicas novedosas en la detección de errores que, pese a ser habituales en otras disciplinas como la economía o la auditoría, no lo son en absoluto en las Ciencias de la Salud.<br/>En el cuarto capítulo, de carácter aplicado, se expone el proceso de depuración propuesto en esta tesis y se especifican controles y chequeos para todas las tipologías de variables descritas en los apartados teóricos, se detalla el tipo de comprobación que debe efectuarse y el algoritmo en pseudocódigo que permite su implantación. Asimismo, para cada tipo de variable se ha programado una macro en lenguaje SPSS que permite automatizar el control.<br/>En el quinto capítulo se detalla la aplicación de la metodología de depuración propuesta a datos reales: la Encuesta Sociodemográfica, el Conjunto de Datos Mínimo de Alta Hospitalaria y la Historia Clínica Electrónica. Estos ejemplos se caracterizan por bases de datos extensas y de estructura compleja. En esta parte del trabajo se expone de qué modo se ha realizado la depuración y se valora el comportamiento mostrado por este proceso. <br/>Finalmente, en el último capítulo se exponen las principales conclusiones y se discuten las implicaciones teóricas y prácticas de este trabajo.


The primary target main purpose of this thesis is to contribute improve data quality with a procedure that allows to detect and to correct errors in the recorded data already recorded. To do this, For it a data cleansing purgingcleansing /depuration/(busca una palabra más técnica en la literatura) process has been designed that is organized in the following phases: 1) reading of the recorded data; 2) depuration/purge cleans of the identifier, guaranteeing that each registry is univocally identified and that is adapted to the referential integrity normal forms of referential integrity of the relational theory; 3) correction of the incidences detected in the indentificador identifier 4) depuration/purge cleans of the skip (¿No hay una palabra más técnica para variable de salto? Esto Lourdes no lo sabrá y yo tampoco) skip variables, 5) correction of the incidences detected in the skip variables, 6) cleans purge/depuration of the other rest of variables of the study, by detecting the incidences contained in the recorded data like that are not known consequence of inconsistencieas (inconsistencies) and missing (desconocidos) values; 7) correction of the detected incidences, introducing whenever it is possible the correct value or assigning to missing value when it is not had this one; and 8) obtaining of a statistic of the errors detected by the data cleansingcleans purge/depuration process and of the unknown/missing values contents in the final data.<br/>It is important to repeat in an iterative form tThe phases of control and correction are due to make of iterative form until the only detected incidences would beare missing and nonrecoverable values nonrecoverable. Also, this data cleansing process of cleansing must be accompanied by a file of historical changes that allows to know all the modifications conducted from in the original data. The systematic controls of this design must be integrated through macros (for example in SPSS or SAS language SPSS or SAS) that automates and guarantees them their functionality. In addition, we have elaborated created the macros in SPSS syntax SPSS to carry out the data cleansingcleansing; the algorithms contained in these macros are easily transportable to other statistical packages.<br/>This thesis is structured in six chapters, the three first three chapters are of theoretical character and the other are three last ones applied.<br/>The first chapter first reviews the basic concepts of measure and error in psychology and error, as well as the controls that it is necessary to are due to implement to diminish the incidences in the dataof the data. We, distinguishing between controls that they are applicable to the deferred capture and those that are it applicable to the direct capture.<br/>The second chapter is centered focused in on the operative definition of the error in the process of the management of the data process. We, explainhaving exposed it is necessarythe necessity to previously evaluate the quality of the information prior to conduct to its statistical analysis, and introduceing the cleansing concept of data cleansing.<br/>In the third chapter they we review manifold many controls proposed for different tipology from of variables. Are Ttechniques to detect of detection of errors by duplicated records, in quantitative and variables, categorical variables, etc., are shown. Also, we show novel new techniques in the detection of errors appear that are wellknown , in spite of to be habitual in other disciplines like the economy economics or the auditory, but unknown in the Health Sciencesare not it absolutely in Sciences of the Health.<br/>In the fourth chapter, of applied character, the data cleansing process of cleansing is exposed proposed in this thesis and controls are specified and controls for all the tipology of variables described in the theoretical sections are specified. We, detail the type of verification that must take place and the algorithm in pseudocode that allows its implementationantation. Also, for each type of variable a macro in SPSS language SPSS has been programmed that allows to automate the control.<br/>In the fifth chapter the application to real data of this proposed depuration process the methodology of propose purification to real data is detailedspecified: the Sociodemographic Survey, the Minimum Data set of Hospitable Discharge and the Electronic Clinical History. These examples are characterized by large and complex structure data bases extensive complex structure and data bases. In this part of the work it is exposed how the purification data cleansing process has been made in this case and the behavior shown by this process is valued.<br/>Finally, in the last chapter the main conclusions are exposed and the theoretical and practical implications of this work are discussed.

Keywords

Gestión de los datos; Calidad de los datos; Depuración de datos

Subjects

519.1 - Combinatorial analysis. Graph theory

Knowledge Area

Ciències de la Salut

Documents

abm1de1.pdf

586.1Kb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)