Kernel approaches for complex phenotype prediction

Author

Ramon Gurrea, Elies

Director

Belanche Muñoz, Lluís A. (Lluís Antoni)

Pérez-Enciso, Miguel

Tutor

Barbadilla Prados, Antonio

Date of defense

2020-11-06

ISBN

9788449097898

Pages

242 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Genètica

Abstract

La relació entre fenotip i informació genotípica és considerablement intricada i complexa. Els mètodes d’aprenentatge automàtic s’han utilitzat amb èxit per a la predicció de fenotips en un gran ventall de problemes dins de la genètica i la genòmica. Tanmateix, les dades biològiques sovent estan estructurades i són de tipus “no estàndard”, el que pot suposar un repte per a la majoria de mètodes d’aprenentatge automàtic. Entre aquestos, els mètodes kernel proporcionen un enfocament molt versàtil per manejar diferents tipus de dades i problemes mitjançant la utilització d’una família de funcions anomenades de kernel. L’objectiu principal d’aquesta tesi doctoral és el desenvolupament i l’avaluació d’estratègies de kernel específiques per a la predicció fenotípica, especialment en problemes biològics amb dades o dissenys experimentals de tipus estructurat. A la primera part, utilitzam seqüències de proteasa, transcriptasa inversa i integrasa per predir la resistència del VIH a fàrmacs antiretrovirals. Proposam dos kernels categòrics (Overlap i Jaccard) que tenen en compte les particularitats de les dades de VIH, com per exemple les barreges d’al·lels. Els kernels proposats es combinen amb Support Vector Machines (SVM) i es comparen amb dos kernels estàndard (Linear i RBF) i dos mètodes que no són de kernel: els boscos aleatoris (RF) i un tipus de xarxa neuronal (el perceptró multicapa). També incloem en els kernels la importància relativa de cada posició de la proteïna pel que fa a la resistència. Els resultats mostren que tenir en compte la naturalesa categòrica de les dades i la presència de barreges millora sistemàticament la predicció. L’efecte de ponderar les posicions per la seua importància és més gran en la transcriptasa inversa i en la integrasa, el que podria estar relacionat amb les diferències que hi ha entre els tres enzims pel que fa als patrons de mutació per adquirir resistència a fàrmacs antiretrovirals. A la segona part, ampliam l’estudi anterior per considerar no-independència entre les posicions de la proteïna. Representam les proteïnes com a grafs i ponderam cada aresta entre dos residus per la seua distància euclidiana, calculada a partir de dades de cristal·lografia de rajos X. A continuació, els aplicam un kernel per a grafs (el random walk exponential kernel) que integra els kernels Overlap i Jaccard. A pesar dels avantatges potencials d’aquest kernel, no aconseguim millorar els resultats obtinguts en la primera part. A la tercera part, proposam un kernel framework per unificar les anàlisis supervisades i no supervisades en el camp del microbioma. Aprofitam la mateixa matriu de kernel per predicció mitjançant SVM i visualització mitjançant anàlisi de components principals amb kernels (kPCA). Discutim com transformar mesures de beta-diversitat en kernels, i definim dos kernels per a dades composicionals (Aitchison-RBF i compositional linear). Aquest darrer kernel també permet obtenir les importàncies dels tàxons respecte del fenotip predit (signatures microbianes). Per a les dades amb estructuració espacial i temporal utilitzam Multiple Kernel Learning i kernels per a sèries temporals, respectivament. El framework s’il·lustra amb tres bases de dades: la primera conté mostres de sòl, la segona mostres humanes amb una component espacial i la tercera, no publicada fins ara, dades longitudinals de porcs. Totes les anàlisis es contrasten amb els estudis originals (en els dos primers casos) i també amb els resultats dels RF. El nostre kernel framework no només permet una visió global de les dades, sinó que també dóna bons resultats a cada àrea d’aprenentatge. En les anàlisis no supervisades, els patrons detectats en estudis previs es conserven a la kPCA. En anàlisis supervisades, el SVM té un rendiment superior (o equivalent) al dels RF, mentre que les signatures microbianes són coherents amb els estudis originals i la literatura prèvia.


La relación entre fenotipo e información genotípica es considerablemente intrincada y compleja. Los métodos de aprendizaje automático (ML) se han utilizado con éxito para la predicción de fenotipos en una gran variedad de problemas dentro de la genética y la genómica. Sin embargo, los datos biológicos suelen estar estructurados y pertenecer a tipos de datos "no estándar", lo que puede representar un desafío para la mayoría de los métodos de ML. Entre ellos, los métodos de kernel permiten un enfoque muy versátil para manejar diferentes tipos de datos y problemas mediante una familia de funciones llamadas de kernel. El objetivo principal de esta tesis doctoral es el desarrollo y evaluación de enfoques de kernel específicos para la predicción fenotípica, centrándose en problemas biológicos con tipos de datos o diseños experimentales estructurados. En la primera parte, usamos secuencias de proteínas mutadas del VIH (proteasa, transcriptasa inversa e integrasa) para predecir la resistencia a antiretrovirales. Proponemos dos funciones de kernel categóricas (Overlap y Jaccard) que tienen en cuenta las particularidades de los datos de VIH, como las mezclas de alelos. Los kernels propuestos se combinan con máquinas de vector soporte (SVM) y se comparan con dos funciones de kernel estándar (Linear y RBF) y dos métodos que no son de kernel: bosques aleatorios (RF) y un tipo de red neuronal, el perceptrón multicapa. También incluimos en los kernels la importancia relativa de cada posición de la proteína con respecto a la resistencia. Tener en cuenta tanto la naturaleza categórica de los datos como la presencia de mezclas obtenemos sistemáticamente mejores predicciones. El efecto de la ponderación es mayor en los inhibidores de la integrasa y la transcriptasa inversa, lo que puede estar relacionado con diferencias en los patrones mutacionales de las tres enzimas virales. En la segunda parte, ampliamos el estudio anterior para considerar que las posiciones de las proteínas pueden no ser independientes. Las secuencias mutadas se representan como grafos, ponderándose las aristas por la distancia euclidiana entre residuos obtenida por cristalografía de rayos X. A continuación, se calcula un kernel para grafos (el exponential random walk kernel) que integra los kernels Overlap y Jaccard. A pesar de las ventajas potenciales de este enfoque, no observamos una mejora en la capacidad predictiva. En la tercera parte, proponemos un kernel framework para unificar los análisis supervisados ​​y no supervisados del microbioma. Para ello, usamos una misma matriz de kernel para predecir fenotipos usando SVM y visualización a través de análisis de componentes principales con kernels (kPCA). Definimos dos kernels para datos composicionales (Aitchison-RBF y compositional linear) y discutimos la transformación de medidas de beta-diversidad en kernels. El kernel lineal composicional también permite la recuperación de importancias de taxones (firmas microbianas) del modelo SVM. Para datos con estructura espacial y temporal usamos Multiple Kernel Learning y kernels para series temporales, respectivamente. Ilustramos el kernel framework con tres conjuntos de datos: datos de suelos, datos humanos con un componente espacial y, un conjunto de datos longitudinales inéditos sobre producción porcina. Todos los análisis incluyen una comparación con los informes originales (en los dos primeros casos), así como un contraste con los resultados de RF. El kernel framework no solo permite una visión holística de los datos, sino que también da buenos resultados en cada área de aprendizaje. En análisis no supervisados, los principales patrones detectados en los estudios originales se conservan en kPCA. En análisis supervisados, la SVM tiene un rendimiento mayor (o equivalente) a los RF, mientras que las firmas microbianas son coherentes con los estudios originales y la literatura previa.


The relationship between phenotype and genotypic information is considerably intricate and complex. Machine Learning (ML) methods have been successfully used for phenotype prediction in a great range of problems within genetics and genomics. However, biological data is usually structured and belongs to & 'nonstandard' data types, which can pose a challenge to most ML methods. Among them, kernel methods bring along a very versatile approach to handle different types of data and problems through a family of functions called kernels. The main goal of this PhD thesis is the development and evaluation of specific kernel approaches for phenotypic prediction, focusing on biological problems with structured data types or study designs. In the first part, we predict drug resistance from HIV-mutated protein sequences (protease, reverse transcriptase and integrase). We propose two categorical kernel functions (Overlap and Jaccard) that take into account HIV data particularities, such as allele mixtures. The proposed kernels are coupled with Support Vector Machines (SVM) and compared against two well-known standard kernel functions (Linear and RBF) and two nonkernel methods: Random Forests (RF) and the Multilayer Perceptron neural network. We also include a relative weight into the aforementioned kernels, representing the importance of each protein residue regarding drug resistance. Taking into account both the categorical nature of data and the presence of mixtures consistently delivers better predictions. The weighting effect is higher in reverse transcriptase and integrase inhibitors, which may be related to the different mutational patterns in the viral enzymes regarding drug resistance. In the second part, we extend the previous study to consider the fact that protein positions are not independent. Mutated sequences are modeled as graphs, with edges weighted by the Euclidean distance between residues, obtained from crystal three-dimensional structures. A kernel for graphs (the exponential random walk kernel) that integrates the previous Overlap and Jaccard kernels is then computed. Despite the potential advantages of this kernel for graphs, an improvement on predictive ability as compared to the kernels of the first study is not observed. In the third part, we propose a kernel framework to unify unsupervised and supervised microbiome analyses. To do so, we use the same kernel matrix to perform phenotype prediction via SVMs and visualization via kernel Principal Components Analysis (kPCA). We define two kernels for compositional data (Aitchison-RBF and compositional linear) and discuss the transformation of beta-diversity measures into kernels. The compositional linear kernel also allows the retrieval of taxa importances (microbial signatures) from the SVM model. Spatial and time-structured datasets are handled with Multiple Kernel Learning and kernels for time series, respectively. We illustrate the kernel framework with three datasets: a single point soil dataset, a human dataset with a spatial component, and a previously unpublished longitudinal dataset concerning pig production. Analyses across the three case studies include a comparison with the original reports (for the two former datasets), as well as contrast with results from RF. The kernel framework not only allows a holistic view of data but also gives good results in each learning area. In unsupervised analyses, the main patterns detected in the original reports are conserved in kPCA. In supervised analyses SVM has better (or, in some cases, equivalent) performance than RF, while microbial signatures are consistent with the original studies and previous literature.

Keywords

Fenotip; Fenotipo; Phenotype; Predicció; Predicción; Prediction; Mètodes Kernel; Métodos Kernel; Kernel Methods

Subjects

575 - General genetics. General cytogenetics

Knowledge Area

Ciències Experimentals

Documents

erg1de1.pdf

16.32Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/

This item appears in the following Collection(s)