New data integration methods for drug re-purposing by mining heterogeneous omics data

Author

Zambrana Seguí, Maria del Carme

Director

Przulj, Natasa

Tutor

Larrosa Bondia, Francisco Javier

Date of defense

2023-11-21

Pages

503 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament de Ciències de la Computació

Doctorate programs

DOCTORAT EN INTEL·LIGÈNCIA ARTIFICIAL (Pla 2012)

Abstract

(English) High-throughput omics technologies produce large-scale heterogeneous data that provide complementary views of the underlying complexity of the studied organism. To exploit these new data to answer biomedical research questions, such as drug re-purposing, we need to adapt existing artificial intelligence (AI) methods to integrate and collectively mine all these data. Drug re-purposing aims to investigate existing drugs for new therapeutic purposes. The fact that these drugs have already been studied for other indications shortens the development times and reduces the risks from a safety point of view. Hence, drug re-purposing is crucial for quickly responding to unknown pathogens, such as the novel SARS-COV-2, which recently caused a devastating worldwide pandemic. Antiviral drugs have been developed to treat viral infections by targeting viral or host proteins. Drug re-purposing targeting the host proteins aims to disrupt the host biological mechanisms used by the virus. When these biological mechanisms are shared across different viruses, the re-purposed drugs are good candidates for broad-spectrum viral treatments. Therefore, in this thesis, we develop novel AI frameworks for re-purposing drugs that disrupt the host biological mechanisms relevant to viral infections. In particular, we contribute to the efforts to treat COVID-19 by re-purposing existing drugs. We focus on data integration frameworks to integrate network data about the human host (interactions between their genes or proteins) and related to drugs (interactions between drugs and human proteins and chemical similarity between drugs) with new data related to SARS-COV-2 (interactions between the viral and human proteins or gene expression of the human genes after infection). The developed frameworks are based on Non-negative Matrix Tri-factorization (NMTF) since these methods produce interpretable models capable of integrating and mining homogeneous and heterogeneous complex data. First, we investigate the SARS-COV-2 infection in two ways: from a systemic point of view (i.e., considering COVID-19 affects the entire body) and focusing on its primary site of infection (i.e., the lungs). Thus, we develop two frameworks that identify relevant genes for COVID-19 and re-purpose drugs to treat it. Interestingly, each framework's top identified genes and re-purposed drugs do not overlap. This highlights the complementarity of the two approaches, which uncover new and different insights into COVID-19, even though they both use NTMF to integrate biological data. From the genes identified with the systemic-based framework, we observe that they connect two important gene sets for SARS-COV-2 infection: the human proteins directly targeted by the SARS-COV-2 proteins and those genes differentially expressed after COVID-19 infection (we termed them "common neighbours" (CN) genes). We find that these genes are key to COVID-19 mechanisms and promising targets for drug re-purposing. Then, we investigate if our CN concept could be applied to other viruses to find common disease mechanisms. Thus, we apply the CN concept across five well-studied viruses and extend it to viral infections without DEG data, uncovering disease genes for 13 viruses (8 without DEG data). Interestingly, we find that the CNs are shared across viruses, revealing "pan-viral" disease mechanisms. Finally, we develop a new data integration framework to re-purpose drugs targeting these "pan-viral" genes, paving the way for broad-spectrum drug re-purposing. In conclusion, we develop novel artificial intelligence frameworks capable of integrating and mining complex omics data to re-purpose drugs for treating viral infections by disrupting the host biological mechanisms used by the virus. These new frameworks improve our understanding of viral infections, providing the basis for broad-spectrum treatments against them.


(Español) Las tecnologías ómicas de alto rendimiento generan datos heterogéneos a gran escala que ofrecen perspectivas complementarias del organismo estudiado. Para utilizar estos datos en áreas biomédicas, como el reposicionamiento de fármacos (RF), es necesario adaptar métodos existentes de inteligencia artificial (IA) para integrarlos y procesarlos conjuntamente. El RF investiga fármacos existentes para nuevos propósitos terapéuticos. Dado que estos fármacos ya se han estudiado para otras indicaciones acorta los tiempos de desarrollo y reduce los riesgos de seguridad. Así, el RF es crucial para responder rápidamente a patógenos desconocidos, como el nuevo SARS-COV-2, que recientemente causó una pandemia mundial. Los fármacos antivirales tienen dos posibles dianas terapéuticas: las proteínas virales o las proteínas humanas del huésped. El RF que se enfoca en las proteínas humanas tiene como objetivo alterar los mecanismos biológicos humanos utilizados por el virus. Cuando estos mecanismos son compartidos entre varios virus, los fármacos son candidatos para tratamientos virales de amplio espectro. En esta tesis desarrollamos nuevos modelos de IA para el RF que alteren los mecanismos biológicos humanos relevantes para infecciones virales. En particular, contribuimos a los esfuerzos para tratar el COVID-19 mediante el RF. Nos centramos en modelos de integración de datos para combinar redes sobre el huésped humano (interacciones entre sus genes/proteínas) y fármacos (interacciones entre fármacos y proteínas humanas y similitud química entre fármacos) con nuevos datos relacionados con el SARS-COV-2 (interacciones entre las proteínas virales y humanas o expresión genética de los genes humanos después de la infección). Los modelos desarrollados se basan en la Tri-factorización de Matrices No Negativas (NMTF en sus singlas en inglés), ya que estos métodos generan modelos interpretables capaces de integrar y analizar datos complejos homogéneos y heterogéneos. Primero, investigamos la infección por SARS-COV-2 de dos formas: desde un punto de vista sistémico (considerando que el COVID-19 afecta todo el cuerpo) y centrándonos en su sitio primario de infección (los pulmones). Así, desarrollamos dos modelos que identifican genes relevantes para el COVID-19 y reposicionan fármacos para tratarlo. Curiosamente, los genes y fármacos identificados por cada modelo no se solapan. Esto resalta la complementariedad de los dos enfoques, que generan nuevo conocimiento sobre el COVID-19, aunque ambos utilizan NMTF para integrar datos biológicos. Los genes identificados mediante el primer modelo (a los que llamamos CN de sus siglas en inglés) conectan dos conjuntos de genes relacionados con la infección por SARS-COV-2: las proteínas humanas directamente afectadas por las proteínas del SARS-COV-2 y aquellos genes con diferente expresión después de la infección (DEG de sus siglas en inglés). Descubrimos que los genes CN son clave para los mecanismos del COVID-19 y candidatos prometedores para el RF. Luego, investigamos si nuestro concepto de CN se podría aplicar a otros virus para encontrar mecanismos de enfermedad comunes. Así, aplicamos el concepto de CN a cinco virus y lo extendimos a infecciones virales sin datos DEGs, obteniendo CN para 13 virus (8 sin datos DEGs). Curiosamente, encontramos que los CN son comunes entre los virus, revelando mecanismos "pan-virales". Finalmente, desarrollamos un nuevo modelo de integración de datos para reposicionar fármacos con estos genes "pan virales" como dianas terapéuticas, allanando el camino para el RF de amplio espectro. En conclusión, hemos desarrollado nuevos modelos de IA capaces de integrar y analizar datos ómicos complejos para el RF en el tratamiento de infecciones virales al alterar los mecanismos biológicos del huésped utilizados por el virus. Estos nuevos modelos mejoran nuestra comprensión de las infecciones virales, sentando las bases para tratamientos de amplio espectro contra ellas.

Subjects

004 - Computer science and technology. Computing. Data processing; 575 - General genetics. General cytogenetics

Knowledge Area

Àrees temàtiques de la UPC::Informàtica

Note

A la portada: Integrative Computational Network Biology (ICONBI) Life Science - Barcelona Supercomputing Center

Documents

TMCZS1de1.pdf

25.40Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)