Dimensionality reduction in multigroup data: applications in integrative omics

Author

Millapán Toledo, Carolina Andrea

Director

Reverter Comes, Ferran

Vegas Lozano, Esteban

Tutor

Sànchez, Àlex (Sànchez Pla)

Date of defense

2023-12-18

Pages

120 p.



Department/Institute

Universitat de Barcelona. Departament de Genètica, Microbiologia i Estadística

Abstract

[eng] The idea of this research is to propose dimensionality reduction methods considering multi- groups in a dataset. In multivariate analysis, there are many multigroup methods, but they have different objectives than the goals presented in this thesis. Classical principal component analysis (PCA) is considered in this research as it has some- thing similar to our objective which is the exploration and visualization of the dataset. However, this unsupervised method lacks in considering the multigroup configuration. The thesis presents two multivariate dimension reduction approaches under a multigroup configuration. Statistical simulation helps us better observe and control the parameters of interest with these new methods proposed in this research. Thus, in this way, it helps us to conclude how they contribute to the literature of multivariate techniques in the visualization and exploration of high-dimensional data analysis. The method, multigroup principal component analysis (mgPCA), is based on maximizing the interdistances between pairs of observations when the observations belong to different groups. The second method, multigroup dimension reduction (MDR), determines linear varieties that minimize overlap by comparing observations in one group with the rest of the observations in the other groups. It is worth mentioning that a package was created in the R statistical programming lan- guage called MultiGroupO containing our two dimensionality reduction methods, and with vignettes, for better explanation and visualization of our multivariate multigroup approaches on omics datasets or any data analysis.


[spa] La idea de esta investigación es proponer métodos de reducción de dimensionalidad considerando los multigrupos en un conjunto de datos. El análisis multivariado hay muchos métodos multigrupos, pero que tienen distintos objetivos a lo nuestro en esta tesis. El análisis de componentes principales (PCA) clásico se considera en esta investigación, ya que tiene algo similar en nuestro objetivo que es la exploración y visualización del conjunto de datos. No obstante, este método no supervisado carece en considerar la configuración multigrupo. La tesis presenta dos enfoques multivariantes de reducción de la dimensión bajo una configuración multigrupo. La simulación estadística nos ayuda a observar y controlar de mejor manera los parámetros de interés en estos nuevos métodos propuestos en esta investigación. Así de esta manera, nos ayuda a concluir de qué manera contribuyen en la literatura de técnicas multivariantes en la visualización y exploración del análisis de datos de alta dimensionalidad. El método, análisis de componentes principales multigrupo (mgPCA), se basa en la maximización de las interdistancias entre pares de observaciones cuando las observaciones pertenecen a distintos grupos. El segundo método, reducción de dimensión multigrupo (MDR), determina variedades lineales que minimizan la superposición al comparar las observaciones de un grupo con el resto de observaciones en los otros grupos. Cabe mencionar que se creó un paquete en el programa R llamado MultiGroupO que contiene nuestros dos métodos de reducción de dimensionalidad, y con viñetas, para una mejor explicación y visualización de nuestros enfoques multivariados multigrupos en conjuntos de datos ómicos o de cualquier análisis de datos.

Keywords

Anàlisi multivariable; Análisis multivariante; Multivariate analysis; Dades de recerca; Datos de investigación; Research data

Subjects

57 - Biological sciences in general

Knowledge Area

Ciències Experimentals i Matemàtiques

Note

Programa de Doctorat en Biomedicina

Documents

This document contains embargoed files until 2024-06-18

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)