Novel methods for multiple sequence alignment and evolutionary modeling

Author

Mansouri, Leila ORCID

Director

Notredame, Cedric

Date of defense

2023-03-27

Pages

160 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Medicina i Ciències de la Vida

Doctorate programs

Programa de doctorat en Biomedicina

Abstract

El continuo aumento de los proyectos de producción de datos genómicos a gran escala, como el "Earth BioGenome Project" (Lewin et al., 2018), pone los métodos de análisis de datos bajo una presión sin precedentes. Es necesario crear nuevas estrategias para poder analizar todas estas secuencias. Los métodos de modelización más utilizados en biología son los alineamientos múltiples de secuencias (MSA) y la reconstrucción de árboles filogenéticos. En esta tesis, he abordado estos dos temas desde el ángulo del análisis de secuencias de proteínas, con un enfoque particular que distingue entre los análisis basados en estructuras y los basados en secuencias. Los problemas a los cuales se enfrentan las metodologías existentes, sin embargo, no son únicamente computacionales. De hecho, el escalado de métodos clave como los MSA no sólo necesita más recursos informáticos, sino también requiere la mejora de los algoritmos, ya que la fiabilidad del MSA disminuye cuando se trabaja con más de 1000 secuencias (Sievers et al., 2011). Para solucionar este problema, he colaborado en el desarrollo de un nuevo algoritmo de MSA, denominado regresivo (“regressive”) (Garriga et al., 2021), que ofrece una mejor escalabilidad que sus equivalentes progresivos (“progressive”) en términos de cálculo y precisión. Aunque alinear con precisión secuencias distantemente relacionadas seguirá siendo difícil, la amplia aceptación de que la información tridimensional es mucho más resiliente que su equivalente secuencial puede ofrecer una solución alternativa. Hasta ahora, la falta de datos estructurales experimentales ha limitado la relevancia práctica de esta observación, pero la situación está cambiando rápidamente. Gracias a la mejoría recientemente lograda en la predicción de la estructura de las proteínas (Jumper et al., 2021), se está generando una cantidad masiva de datos estructurales cuya calidad se acerca a la experimental. En la actualidad se dispone de más de 200 millones de modelos que pueden utilizarse para el tipo de análisis que se realiza actualmente con los datos cristalográficos. Anticipándome a esto, he explorado la posibilidad de utilizar estructuras predichas por AlphaFold2 (AF2) para estimar MSA basados en estructuras (Baltzis, Mansouri et al., 2022). He descubierto que los MSA basados en modelos estructurales AF2 muestran una mejoría muy significativa en la exactitud con respecto a sus contrapartes basados en secuencias. A continuación, he abordado el problema del análisis de secuencias desde un ángulo filogenético enfocando inicialmente en escenarios evolutivos de parálogos y, posteriormente, he evaluado el potencial del uso de datos estructurales para la reconstrucción de la evolución de secuencias usando secuencias de proteínas arbitrariamente relacionadas. Estos análisis coinciden en corroborar la idoneidad de la información estructural de las proteínas para fines de análisis evolutivo.


The massive ongoing scale-up of genomics data production projects, such as the Earth BioGenome Project (Lewin et al., 2018), puts data analysis methods under unprecedented pressure. New approaches are needed to analyse all these sequences. The most commonly used modelling methods in biology are multiple sequence alignments (MSAs) and phylogenetic tree reconstruction. In this thesis, I have addressed these two topics from the angle of protein sequence analysis with a specific interest in the relationship between structure-based and sequence-based analyses. The problem of data scaling up is not only computational. Indeed, the scale-up of key methods such as MSA modelling does not merely need more computational resources. Still, it also requires conceptual algorithmic improvements, since MSA accuracy decreases when dealing with more than 1000 sequences (Sievers et al., 2011). To address this issue, I helped in the development of a new MSA algorithm, named regressive (Garriga et al., 2021), featuring improved scaling-up capacities over its progressive counterparts in terms of computation and accuracy. Accurately aligning distantly related sequences will, however, remain a challenge but this problem could be alleviated using protein structures as it is well established that three-dimensional information is much more resilient than its sequence counterpart. The scarcity of experimental structural data has, so far, limited the practical relevance of this observation, however, the situation is rapidly changing. Thanks to the newly achieved improvement of protein structure prediction (Jumper et al., 2021), a massive amount of experimental-grade structural data is being generated. Over 200 million models are now available and they may be used for the kind of analysis currently carried out on crystalographic data. Anticipating this, I have explored the possibility of using AlphaFold2(AF2)-predicted structures to estimate structure-based-MSAs (Baltzis, Mansouri et al., 2022). I have found that MSAs based on AF2 structural models display a highly significant improvement in accuracy over their sequence-based counterparts. Next, I have addressed the problem of sequence analysis from a phylogenetic angle initially with a focus on paralogous evolutionary scenarios and, subsequently, I evaluated the potential of the use of structural data for the reconstruction of sequence evolution on arbitrarily related protein sequences . These analyses coincide in supporting the suitability of protein structure information for evolutionary analysis purposes.

Keywords

Alineamiento de secuencias múltiples; AlphaFold2; Filogenia; Estructura de proteínas; Evolución de proteínas; Multiple Sequence alignment; AlphaFold2; Phylogeny; Structure of protein; Protein evolution

Subjects

577 - Material bases of life. Biochemistry. Molecular biology. Biophysics

Documents

This document contains embargoed files until 2024-09-27

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)