Evaluating protein folding predictions and functional annotations: A comprehensive analysis of recent advancements in the protein structural field

Author

Ruiz Serra, Victoria Isabel

Director

Valencia Herrera, Alfonso

Porta Pardo, Eduard

Tutor

Gelpi Buchaca, Josep Lluís

Date of defense

2023-11-08

Pages

285 p.



Department/Institute

Universitat de Barcelona. Facultat de Biologia

Abstract

[eng] Proteins are fundamental building blocks of life, and understanding their structure and function is crucial for many fields of science, from drug discovery to bioengineering. Traditional experimental methods for determining protein structure and function are often limited by time and cost, making computational approaches increasingly important. In recent years, deep learning methods have emerged as a powerful tool for predicting protein structures with high accuracy, offering great potential for advancing our understanding of drug discovery, protein folding patterns, and biological functions. As new technologies and advanced techniques continue to emerge, researchers and institutions must quickly adapt. The protein structural field has made significant progress over the past few years, driven by the imperative to embrace new technologies and techniques, resulting in rapid advancements in the field. The focus of my thesis has revolved around three core aspects: evaluating protein folding prediction methods, developing and applying tools to explore characteristics pertinent to protein functional annotation, and conducting a comprehensive analysis of these attributes. In summary, the present work encompasses an overview of the progress of the structural protein field over the last 5 years. More specifically, it first evaluates the intramolecular residue-residue contact and distance predictions from participating groups in the 14th round of the Critical Assessment of Protein Structure (CASP) experiment. Second, it evaluates the impact of AlphaFold, a deep learning method and the first tool in the history of CASP that predict protein models with accuracy values near native protein structure. This assessment includes its influence on protein structural coverage and its role in rapidly integrating high-quality protein models into functional predictions. Third, in the midst of a pandemic, we applied a tool, called S3Det, that identifies sequence evolutionary constraints in protein families, for the functional characterization of amino acids of the Severe Acute Respiratory Syndrome (SARS)-CoV-2 spike protein to identify potential host receptor usage mechanisms. Fourth, we carried out an evolutionary analysis with a specific emphasis on annotating local frustration energetic patterns across diverse protein superfamilies, aiming to identify potential aminoacids’ functional mechanisms. Fifth, recognizing that functional annotations can enable the prediction of protein stability changes resulting from alterations like mutations, we developed a tool named 3Dmapper for the automated mapping of protein variants onto protein structures. This facilitates the study of protein structural changes that may contribute to the development of diseases. In summary, this thesis underscores the significance of adopting innovative technologies and methodologies within the protein structural field to advance our comprehension of protein structure and function. This approach not only deepens our insight into the biological mechanisms underpinning various diseases but also enriches the fields of drug development and protein design while paving the way for precision medicine. The discoveries outlined in this thesis bear critical implications for the future of protein science and computational biology, emphasizing the potential for integrating machine learning and evolutionary constraints analysis to enhance the precision of protein folding prediction and functional annotation.


[spa] Las proteínas son elementos fundamentales de la vida y comprender su estructura y función es crucial para numerosos campos de la ciencia, desde el descubrimiento de fármacos hasta la bioingeniería. Los métodos experimentales tradicionales para determinar la estructura y función de las proteínas a menudo están limitados por el tiempo y el costo, lo que hace que los enfoques computacionales sean cada vez más importantes. En los últimos años, los métodos de deep learning han surgido como una poderosa herramienta para predecir con alta precisión las estructuras de proteínas, lo que ofrece un gran potencial para avanzar en nuestra comprensión del descubrimiento de fármacos, patrones de plegamiento de proteínas y funciones biológicas. A medida que nuevas tecnologías y técnicas avanzadas continúan surgiendo, los investigadores e instituciones deben adaptarse rápidamente. El campo de la estructura de proteínas ha progresado significativamente en los últimos años, impulsado por la necesidad de adoptar nuevas tecnologías y técnicas, lo que ha resultado en avances rápidos en el campo. El enfoque de mi tesis ha girado en torno a tres aspectos fundamentales: evaluar métodos de predicción del plegamiento de proteínas, desarrollar y aplicar herramientas para explorar características pertinentes a la anotación funcional de proteínas, y llevar a cabo un análisis exhaustivo de dichos atributos. En resumen, este trabajo abarca una visión general del progreso del campo de la proteína estructural en los últimos 5 años. Más específicamente, primero evalúa las predicciones de contactos y distancias intramoleculares de residuos de los grupos participantes en la 14ª ronda del Critical Assessment of Structure Prediction (CASP). Segundo, evalúa el impacto de AlphaFold, un método de deep learning y la primera herramienta en la historia de CASP que predice modelos de proteínas con valores de precisión cercanos a la estructura nativa de proteínas. Esta evaluación incluye su in- fluencia en la cobertura estructural de proteínas y su papel en la integración rápida de modelos de proteínas de alta calidad en predicciones funcionales. Tercero, en medio de una pandemia, aplicamos una herramienta llamada S3Det, que identifica restricciones evolutivas de secuencia en familias de proteínas, para la caracterización funcional de aminoácidos de la proteína Spike del SARS-CoV-2 con el fin de identificar posibles mecanismos de uso con respecto al receptor del huésped. Cuarto, llevamos a cabo un análisis evolutivo con un énfasis específico en la anotación de patrones energéticos de frustración local en diversas superfamilias de proteínas, con el objetivo de identificar posibles mecanismos funcionales de aminoácidos. Quinto, reconociendo que las anotaciones funcionales pueden permitir la predicción de cambios en la estabilidad de las proteínas como resultado de alteraciones como mutaciones, desarrollamos una herramienta llamada 3Dmapper para el mapeo automático de variantes de proteínas en estructuras proteicas. Esto facilita el estudio de cambios estructurales de proteínas que pueden contribuir al desarrollo de enfermedades. En resumen, esta tesis subraya la importancia de adoptar tecnologías y metodologías innovadoras en el campo de la estructura de proteínas para avanzar en nuestra comprensión de la estructura y función de las proteínas. Este enfoque no solo profundiza nuestra comprensión de los mecanismos biológicos subyacentes en diversas enfermedades, sino que también enriquece los campos del desarrollo de fármacos y el diseño de proteínas, abriendo la puerta a la medicina de precisión. Los descubrimientos expuestos en esta tesis tienen implicaciones críticas para el futuro de la ciencia de las proteínas y la biología computacional, enfatizando el potencial de integrar el aprendizaje automático y el análisis de restricciones evolutivas para mejorar la precisión en la predicción del plegamiento de proteínas y la anotación funcional.

Keywords

Proteïnes; Proteínas; Proteins; Biologia computacional; Biología computacional; Computational biology

Subjects

577 - Material bases of life. Biochemistry. Molecular biology. Biophysics

Knowledge Area

Ciències Experimentals i Matemàtiques

Note

Programa de Doctorat en Biomedicina / Tesi realitzada al Barcelona Supercomputing Center (BSC)

Documents

VRS_PhD_THESIS.pdf

37.64Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/

This item appears in the following Collection(s)