Binary pathogenicity classification of missense variants through development of quantitative protein-specific predictors

dc.contributor
Universitat de Barcelona. Facultat de Biologia
dc.contributor.author
Özkan, Selen
dc.date.accessioned
2024-02-02T10:26:54Z
dc.date.available
2024-02-02T10:26:54Z
dc.date.issued
2023-12-01
dc.identifier.uri
http://hdl.handle.net/10803/689957
dc.description
Programa de Doctorat en Biomedicina
ca
dc.description.abstract
[eng] Precision medicine aims to provide personalized patient care using genetic data. However, interpreting the phenotypic consequences of genetic variants remains a bottleneck in both clinical and research settings. Computational methods available mostly focus on predicting the binary impact of protein sequence variants (benign/pathogenic). Despite their high predictive power, there still are limitations that affect their reliability. New research efforts are made for approaching the variant prediction problem from a completely different angle: continuous prediction of the molecular impact of variants comparable to the functional assay values. The work in this thesis belongs to this new paradigm. We start by reviewing the status of the pathogenicity predictors to understand their nature, progress, and limitations. We follow this review by focusing on prediction models for two important tumor suppressor genes involved in hereditary breast and ovarian cancers: BRCA1 and BRCA2. We developed two protein-specific predictors for BRCA1 and BRCA2 proteins trying several regression techniques. Using a small set of features and training sets, we show the potential of regression approaches for addressing the prediction of the quantitative impact of variants. These studies led to the main goal of this thesis project: the development of a novel approach for predicting the clinical impact of missense variants based on a fundamental formulation of the problem. First, we train a series of 30 protein-specific regression models using the deep mutational scanning experiments available in the literature and a set of sequence- and structure (AlphaFold)-based input features. We show that our models’ performances display significant predictive ability. Second, we extend this protein-specific approach to the clinical genome by developing a general Ensemble Learning based-predictor. For a given variant, this model combines the predictions of a set of representative protein-specific predictors by simply taking their medians. When compared against predictors with similar nature, such as ENVISION, our model showed higher Pearson’s correlations for most of the cases in our dataset. Lastly, we address the final goal of the project: generating binary outcomes from our Ensemble model. The result was subject to a rigorous testing of the resulting methodology in an independent validation dataset against top ranking in silico tools in the field. We see that our methodology reaches a predictive level comparable to that of established binary methods, like REVEL or others. In summary, we show that our approach can be useful for predicting the molecular impact of variants and their potential binary status while keeping a high potential for interpretability.
ca
dc.description.abstract
[spa] La medicina de precisión tiene como objetivo brindar atención personalizada al paciente usando datos genéticos. Sin embargo, interpretar las consecuencias fenotípicas de las variantes genéticas sigue siendo un obstáculo tanto en el ámbito clínico como en el de investigación. Los métodos computacionales actuales se centran principalmente en predecir el impacto binario (benigna/patógenica) de las variantes de la secuencia de las proteínas. Pero a pesar de su alto poder predictivo, todavía existen limitaciones que afectan a su fiabilidad. Por ello, se están realizando nuevos esfuerzos de investigación para abordar el problema de la predicción de variantes desde un ángulo diferente: obtener una predicción continua del impacto molecular de variantes comparable a los valores de los ensayos funcionales. El trabajo de esta tesis pertenece a este nuevo paradigma. Comenzamos revisando el estado de los predictores de patogenicidad para comprender su naturaleza, progreso y limitaciones. Continuamos esta revisión centrándonos en los modelos de predicción de dos importantes genes supresores de tumores implicados en el cáncer de mama y de ovario hereditario: BRCA1 y BRCA2. Finalmente, desarrollamos dos predictores específicos de proteínas para BRCA1 y BRCA2 probando varias técnicas de regresión. Utilizando un pequeño conjunto de características descriptivas y conjuntos de entrenamiento, mostramos el potencial de las técnicas de regresión para abordar la predicción del impacto cuantitativo de las variantes. Estos estudios me prepararon para abordar el principal objetivo de esta tesis: el desarrollo de una nueva aproximación para predecir el impacto clínico de las variantes sin sentido basado en una formulación fundamental del problema. Primero, entrenamos una serie de 30 modelos de regresión específicos de proteínas utilizando los experimentos de escaneo mutacional profundo disponibles en la literatura y un conjunto de características descriptivas basadas en secuencia y estructura (AlphaFold). A continuación, mostramos que nuestros modelos tienen una mayor y significativa capacidad predictiva. En segundo lugar, ampliamos esta aproximación específica de proteínas al genoma clínico mediante el desarrollo de un predictor general tipo Ensemble. Para una variante determinada, este modelo combina las predicciones de un conjunto de predictores específicos de proteínas representativos simplemente tomando sus medianas. En comparación con predictores de naturaleza similar, como ENVISION, nuestro modelo mostró mejores correlaciones de Pearson para la mayoría de los casos de nuestro conjunto de datos. Por último, abordamos el objetivo final del proyecto: generar una predicción binaria a partir de nuestro modelo Ensemble. Evaluamos dichas predicciones con un riguroso test con un conjunto de datos de validación independiente y lo comparamos con las mejores herramientas in silico del campo. Los resultados nos muestran que nuestra metodología alcanza un nivel predictivo comparable al de los métodos binarios establecidos, como REVEL u otros. En resumen, mostramos que nuestra aproximación puede ser útil para predecir el impacto molecular de las variantes y su correspondiente estado binario, manteniendo un alto potencial de interpretabilidad.
ca
dc.format.extent
229 p.
ca
dc.language.iso
eng
ca
dc.publisher
Universitat de Barcelona
dc.rights.license
ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
ca
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Ciències de la salut
ca
dc.subject
Ciencias biomédicas
ca
dc.subject
Medical sciences
ca
dc.subject
Medicina personalitzada
ca
dc.subject
Medicina Individualizada
ca
dc.subject
Personalized medicine
ca
dc.subject
Fenotip
ca
dc.subject
Fenotipo
ca
dc.subject
Phenotype
ca
dc.subject
Bioinformàtica
ca
dc.subject
Bioinformática
ca
dc.subject
Bioinformatics
ca
dc.subject
Aprenentatge automàtic
ca
dc.subject
Aprendizaje automático
ca
dc.subject
Machine learning
ca
dc.subject.other
Ciències Experimentals i Matemàtiques
ca
dc.title
Binary pathogenicity classification of missense variants through development of quantitative protein-specific predictors
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
575
ca
dc.contributor.director
Cruz, Xavier de la
dc.contributor.tutor
Gelpi Buchaca, Josep Lluís
dc.embargo.terms
cap
ca
dc.rights.accessLevel
info:eu-repo/semantics/openAccess


Documents

SO_PhD_THESIS.pdf

24.03Mb PDF

This item appears in the following Collection(s)