Statistical methods for the analysis of complex epidemiology data

Author

Esnaola Acebes, Mikel

Director

González Ruiz, Juan Ramón

Codirector

Sunyer Deu, Jordi

Tutor

Delicado Useros, Pedro Francisco

Date of defense

2023-06-23

Pages

148 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa

Doctorate programs

DOCTORAT EN ESTADÍSTICA I INVESTIGACIÓ OPERATIVA (Pla 2012)

Abstract

(English) Epidemiology is a relatively young and rapidly evolving science. Recent technological breakthroughs have allowed modern epidemiologists to raise increasingly ambitious research hypotheses. This has originated vast amounts of data, which in turn has lead to an explosion of new statistical methodology. In this thesis we present four papers on the analysis of complex epidemiology data. In paper 1 we study the utiliy and validity of two computerized tests for the quantification of Working Memory and Attention. We use Bayesian Networks to learn about the structure of interdependencies between a set of variables comprising sociodemographic and neurodevelopmental proxies. The results show that both tests have good psychometric properties and allow us to have a better understanding of the underlying structure of the data, which can then be incorportated into posterior analyses. Papers 2 and 3 deal with the study of small magnitude effects of environmental pollutants on the neurodevelopment of prepuber children. In paper 2 we study the impact on neurodevelopment of several pollutants such as nitrogen dioxide or ultrafine particles. Our results suggest that these pollutants are potentially harmful for the neurodevelopment. In paper 3 we explore in detail the role of one of these pollutants (particulate matter 2.5 or PM2.5). We use nonnegative matrix factorization to conduct a source apportionment to estimate the levels of the different components present in PM2.5. In both papers we apply mixed effects models with several nested random effects to account for the hierarchical and correlated nature of the data. Finally, in paper 4 we present our own method for the analysis of RNA-Seq data and, more specifically, for the detection of differentially expressed genes across two or more conditions. We first use real data examples to show why the previously existing methods based on Poisson and Negative Binomial distributions are not able to capture the real distribution of expression data obtained via RNA-Seq. We then explain our method, which relies on the Poisson-Tweede family of distributions. We end by showing that our method is able to capture more precisely the dynamics of expression of RNA-Seq data.


(Español) La epidemiología es una ciencia relativamente joven pero en constante evolución. Los enormes avances tecnológicos de las últimas décadas han permitido a los epidemiólogos modernos plantearse preguntas científicas cada vez más ambiciosas. Esto ha originado grandes cantidades de datos, lo que a su vez ha llevado a una explosión de nueva metodología estadística. En esta tesis presentamos cuatro artículos que tratan sobre el análisis de datos epidemológicos complejos. En el primer artículo estudiamos la utilidad y validez de dos tests computerizados para cuantificar la Memoria de Trabajo y la Atención. Para ello nos servimos de Redes Bayesianas para inferir la estructura subyacente de interdependencias entre un conjunto de variables que comprenden proxies sociodemográficos y de desarrollo neurológico. Los resultados demuestran que ambos tests tienen buenas propiedades psicométricas y permiten obtener una mejor comprensión de la estructura subyacente de los datos. Los artículos 2 y 3 tratan sobre el estudio de efectos de pequeña magnitud de contaminantes ambientales en el neurodesarrollo de niños y niñas prepúber. En el artículo 2 estudiamos el impacto sobre el neurodesarrollo de diversos contaminantes como por ejemplo el dióxido de nitrógeno o las partículas ultrafinas. Nuestros resultados apuntan a que algunos de estos contaminantes son potencialmente perniciosos para el desarrollo neurológico. En el artículo 3 exploramos más detalladamente el rol de uno de estos contaminantes (la materia particulada 2.5 o PM2.5). Para ello nos valemos de la factorización no negativa de matrices para estimar las fuentes de los diferentes componentes hallados en PM2.5. Tanto en el artículo 2 como en el artículo 3 aplicamos modelos de efectos mixtos con varios efectos aleatorios anidados para tener en cuenta la naturaleza jerárquica y correlacionada de los datos. Por último, en el artículo 4 presentamos nuestro propio método para el análisis de datos de expresión RNA-Seq y, más especificamente, para la detección de genes diferencialmente expresados entre dos o más condiciones. Primero utilizamos ejemplos reales para mostrar por qué la metodología previamente existente basada en las distribuciones de Poisson o Binomial Negativa no es suficientemente flexible para capturar la distribución real de los datos de expresión obtenidos mediante RNA-Seq. A continuación explicamos nuestro método basado en la familia de distribuciones Poisson-Tweedie. Por último demostramos utilizando tanto datos reales como simulados que la flexibilidad de la Poisson-Tweedie permite a nuestro método capturar con mayor precisión las dinámicas de la expresión de dichos datos.

Keywords

Epidemiology; DAG; Bayesian Networks; Mixed-effects; Multilevel; Transcriptomics; RNA-seq

Subjects

51 - Mathematics; 616 - Pathology. Clinical medicine

Knowledge Area

Àrees temàtiques de la UPC::Matemàtiques i estadística; Àrees temàtiques de la UPC::Enginyeria biomèdica

Note

Tesi en modalitat de compendi de publicacions, amb continguts retallats per drets de l’editor

Documents

TMEA1de1.pdf

11.10Mb

 

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)