Data preprocessing and quality diagnosis in deep learning-based in silico bioactivity prediction

Author

López del Río, Ángela

Director

Perera Lluna, Alexandre

Date of defense

2021-06-23

Pages

290 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Enginyeria de Serveis i Sistemes d'Informació

Doctorate programs

Enginyeria biomèdica

Abstract

Drug discovery is a time and resource consuming process involving the identification of a target and the exploration of suitable drug candidates for it. To streamline drug discovery, computational techniques help identifying molecular candidates with desirable properties by modeling their interactions with the target. These techniques are in constant improvement thanks to the development of algorithms, the increasing computational power and the growth of public molecular databases. Specifically, machine learning approaches provide predictive models on biochemical properties and target-ligand binding activity. Deep learning is a machine learning approach that automatically extracts multiple levels of representations of the data. Within the last ten years, deep learning has outperformed classical prediction models in most domains, including drug discovery. Common use cases encompass molecular property prediction, de novo compound generation, protein secondary structure prediction and target-compound binding prediction. However, studies point out the reported performance of deep learning bioactivity prediction models could be a consequence of data bias rather than generalization capability. Efforts are being put in addressing this problem, but it is still present in the state of the art, rewarding novelty over critical assessment. Moreover, the flexibility of deep learning derives in a lack of consensus on how to represent the input spaces, making it difficult to compare models in a common benchmark. Bioactivity data has limited availability because of its associated costs and is often imbalanced, hampering the model learning process. The diagnosis of these problems is not straightforward, since deep learning models are considered black boxes, hindering their adoption as the de facto solution in computer-aided drug discovery. The present thesis aims to improve deep learning models for computational drug discovery, focusing in the input representation, the data bias control, the data imbalance correction and the model diagnosis. First, this thesis assesses the effect that different validation strategies have on binding classification models, aiming to find the most realistic performance estimates. The strategy based on clustering molecules to avoid having similar compounds in training and test sets showed to be the most similar to a prospective validation, and thus, more consistent than random cross-validation (over-optimistic) or than an external test set from other database (over-pessimistic). Second, this thesis focuses on the sequential inputs padding. Padding is necessary to establish a common sequence length by adding zeros to each sequence. These are usually added at the end of the sequence, without formal justification behind it. Here, classical and novel padding strategies were compared in an enzyme classification task. Results showed that the padding position has an effect in the performance of deep learning models, so it should be tuned as an additional hyperparameter. Third, this thesis studies the effect of data imbalance in protein-compound activity classification models and its mitigation through resampling techniques. The model performance was assessed for different combinations of oversampling the minority class and clustering. Results showed that the proportion of actives predicted by the model was explained by the actual data balance in the test set. Data clustering, followed by data resampling in training and validation sets, stood as the best performing strategy without altering the test set. To accomplish the three points above, this thesis provides a systematic way to diagnose deep learning models, identifying the factors that govern the model predictions and performance. Specifically, explanatory linear models enabled informed, quantitative decisions regarding input preprocessing. This ultimately leads to more consistent deep learning target-compound binding prediction models.


El descubrimiento de fármacos es un proceso costoso en tiempo y recursos. Consiste en la identificación de una diana y la exploración de fármacos candidatos apropiados para ella. Las técnicas computacionales optimizan este proceso, ayudando a identificar las mejores moléculas candidatas mediante el modelado de sus interacciones con la diana. Estas técnicas están en constante mejora gracias al desarrollo de algoritmos, al incremento del poder computacional y al aumento de bases de datos moleculares públicas. Particularmente, el aprendizaje automático proporciona modelos predictivos de distintas propiedades bioquímicas. El deep learning (aprendizaje profundo) es una aproximación del aprendizaje automático basada en las redes neuronales multicapa. Durante los últimos diez años el deep learning ha superado a los modelos predictivos clásicos en la mayoría de dominios, incluído el descubrimiento de fármacos. Algunas de sus aplicaciones son la predicción de propiedades moleculares, la generación de nuevos compuestos, la predicción de la estructura secundaria de proteínas y la predicción de unión entre compuestos y dianas. Sin embargo, algunos estudios apuntan a que el rendimiento reportado por los modelos de deep learning de predicción de unión entre dianas y compuestos podría deberse más al sesgo de los datos que a su capacidad de generalización, dando más peso a la novedad que a la valoración crítica. Además, la flexibilidad del deep learning da pie a una falta de consenso en la representación de sus entradas, dificultando su comparación en un marco común. Los datos de bioactividad tienen una disponibilidad limitada debido a su coste y suelen estar desbalanceados, lo cual puede dificultar el proceso de aprendizaje del modelo. El diagnóstico de estos problemas no es sencillo porque los modelos de deep learning son considerados cajas negras. El objetivo de esta tesis es mejorar los modelos de deep learning para el descubrimiento computacional de fármacos, centrándose en la representación de la entrada, el control del sesgo de los datos, la corrección de su desbalance y el diagnóstico de los modelos. Primero, esta tesis evalúa el efecto de diferentes estrategias de validación en los modelos de clasificación de la unión diana-compuesto para encontrar las estimaciones de rendimiento más realistas. La estrategia basada en el agrupamiento de las moléculas demostró ser la más parecida a una validación prospectiva y por tanto, más consistente que la validación cruzada aleatoria (demasiado optimista) o que un conjunto de test externo proveniente de otra base de datos (demasiado pesimista). Segundo, esta tesis se centra en el relleno de las secuencias de entrada, utilizado para establecer una longitud común de las mismas. Este relleno consiste normalmente en añadir ceros al final de cada secuencia, sin una justificación formal detrás esta decisión. Aquí, se compararon estrategias de relleno novedosas y clásicas en una tarea de clasificación de enzimas. Los resultados mostraron que la posición del relleno tiene un efecto sobre el rendimiento de los modelos de aprendizaje profundo, por lo que se le debería dar más atención. Tercero, esta tesis estudia el efecto del desbalance de los datos en los modelos de clasificación de actividad diana-compuesto y su atenuación mediante técnicas de remuestreo. Se evaluó el rendimiento de un modelo para diferentes combinaciones de sobremuestreo de la clase minoritaria y agrupamiento de las moléculas. Los resultados demostraron que el agrupamiento de los datos, seguido por su remuestreo en los conjuntos de entrenamiento y validación, es la estrategia con mejor rendimiento. Por último, esta tesis proporciona una forma sistemática de diagnosticar modelos de deep learning, identificando los factores que rigen sus predicciones. Estos modelos lineales explicativos permitieron la toma de decisiones informadas y cuantitativas en cada uno

Subjects

004 - Computer science and technology. Computing. Data processing; 615 - Pharmacology. Therapeutics. Toxicology

Knowledge Area

Àrees temàtiques de la UPC::Enginyeria biomèdica

Note

Tesi presentada en modalitat de compendi de publicacions; aplicat embargament des de la data de defensa fins el dia 1 d'agost de 2021

Documents

TALdR1de1.pdf

11.26Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

This item appears in the following Collection(s)