Impact of recent protein structure prediction methods on homology, evolutionary and functional inference

dc.contributor
Universitat Pompeu Fabra. Departament de Medicina i Ciències de la Vida
dc.contributor.author
Baltzis, Athanasios
dc.date.accessioned
2023-03-28T12:28:47Z
dc.date.issued
2023-03-20
dc.identifier.uri
http://hdl.handle.net/10803/687992
dc.description.abstract
Recent advances in deep learning techniques have revolutionised protein structure modelling. Since AlphaFold2’s release, a set of tools have now become available to predict native-like structures at near-experimental accuracy for a large fraction of the proteome. This massive amount of structural data is now powering every kind of biological inference requiring structural information. The work presented here features an exploration of the impact of experimental and predicted protein structural information onto homology, evolutionary and functional inference. The first part addresses the issue of accurate multiple sequence alignment (MSA) computation through a novel large-scale algorithmic approach and the systematic use of predicted structural information. In the second part, I explored the contribution of MSAs and structural information to refine phylogenetic and functional inference. On top of developing generic structure-based phylogeny reconstruction methods, I used RBM10, a well characterised splicing factor, as a showcase for the use of predicted structural information to support the inference of functional and phenotypic predictions, especially in the case of pathogenic mutations. The last part of this thesis presents a best-practice bioinformatics pipeline, nf-core/proteinfold, implemented using the Nextflow workflow management system and following nf-core guidelines. This pipeline was developed as a support for the rest of the projects in order to provide a solution to the need of high throughput structure predictions.
ca
dc.description.abstract
Els avenços recents en tècniques de deep learning han revolucionat la modelització d'estructures de proteïnes. Desde el llançament d'AlphaFold2, hi ha disponibles un conjunt d'eines per preveure les estructures de forma nativa amb una precisió gairebé experimental per una gran part del proteoma. A dia d'avui, aquesta gran quantitat de data estructural està alimentant tot tipus de inferència biològica que requereix informació estructural. El treball que es presenta aquí conté una exploració de l'impacte de la informació estructural experimental i predictiva de la proteïna en la inferència de la homologia, l'evolució i la funció. La primera part resolt el problema de la computació precisa d'alineacions de seqüències múltiples (MSA) a través d'un nou enfocament algorítmic de gran escala i l'ús sistemàtic de informació estructural predictiva. En la segona part, exploro la contribució de MSAs i la informació estructural per refinar la inferència filogenètica i funcional. A més a més de desenvolupar mètodes genèrics de reconstrucció filogenètica basada en estructures, he utilitzat RBM10, un factor d'empalmament ben caracteritzat, com un exemple per l'ús d'informació estructural predictiva per recolzar la inferència de prediccions funcional i fenotípica, especialment en el cas de mutacions patogèniques. La última part d'aquesta tesis presenta un pipeline bioinformatic best-practise, nf-core/proteinfold, implementat utilitzant el sistema de gestió de fluxos de treball Nextflow i seguint les directrius de nf-core. Aquest pipeline ha sigut desenvolupat com un suport a la resta de projectes i per proveir una solució a la necessitat de prediccions estructurals de gran escala.
ca
dc.format.extent
161 p.
ca
dc.language.iso
eng
ca
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Protein structure modelling
ca
dc.subject
Multiple sequence alignment
ca
dc.subject
Phylogenetic reconstruction
ca
dc.subject
Functional inference
ca
dc.subject
Large-scale analysis
ca
dc.subject
Modelització d'estructures de proteïna
ca
dc.subject
Alineació de seqüències múltiples
ca
dc.subject
Reconstrucció filogenètica
ca
dc.subject
Inferència funcional
ca
dc.subject
Anàlisis de gran escala
ca
dc.title
Impact of recent protein structure prediction methods on homology, evolutionary and functional inference
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
577
ca
dc.contributor.authoremail
athanasios.baltzis@crg.eu
ca
dc.contributor.director
Notredame, Cedric
dc.embargo.terms
24 mesos
ca
dc.date.embargoEnd
2025-03-20T01:00:00Z
dc.rights.accessLevel
info:eu-repo/semantics/embargoedAccess
dc.description.degree
Programa de doctorat en Biomedicina


Documents

This document contains embargoed files until 2025-03-20

This item appears in the following Collection(s)