Modelos QSPR/QSAR/QSTR basados en sistemas neuronales cognitivos

Author

Espinosa Porragas, Gabriela

Director

Arenas, Àlex

Giralt, Francesc

Date of defense

2002-09-16

ISBN

68800317

Legal Deposit

T.1372-2002



Department/Institute

Universitat Rovira i Virgili. Departament d'Enginyeria Química

Abstract

Un área sumamente interesante dentro del modelado molecular es el diseño de nuevos compuestos. Con sus propiedades definidas antes de ser sintetizados. Los métodos QSPR/QSAR han demostrado que las relaciones entre la estructura molecular y las propiedades físico químicas o actividades biológicas de los compuestos se pueden cuantificar matemáticamente a partir de parámetros estructurales simples. <br/>Las redes neuronales (ANN) constituyen una alternativa para el desarrollo de algoritmos predictivos aplicados en diversos campos como: análisis masivo de bases de datos, para subsanar los obstáculos derivados de la selección o la multicolinealidad de variables, así como la sensibilidad de los modelos a la presencia de ruido en los datos de entrada al sistema neuronal. En la mayoría de los casos, las redes neuronales han dado mejores resultados que los métodos de regresión multilineal (MLR), el análisis de componentes principales (PCA), o los métodos de mínimos cuadrados parciales (PLS) debido a la no linealidad inherente en los modelos de redes. <br/><br/>En los últimos años el interés por los modelos QSPR/QSAR basados en redes neuronales se ha incrementado. La principal ventaja de los modelos de redes recae en el hecho que un modelo QSAR/QSPR puede desarrollarse sin especificar a priori la forma analítica del modelo. Las redes neuronales son especialmente útiles para establecer las complejas relaciones existentes entre la salida del modelo (propiedades físico químicas o biológicas) y la entrada del modelo (descriptores moleculares). Además, permiten clasificar los compuestos de acuerdo a sus descriptores moleculares y usar esta información para seleccionar el conjunto de índices capaz de caracterizar mejor al conjunto de moléculas. Los modelos QSPR basados en redes usan principalmente algoritmos del tipo backpropagation. Backpropagation es un sistema basado en un aprendizaje por minimización del error. Sin embargo, ya que los compuestos químicos pueden clasificarse en grupos de acuerdo a su similitud molecular, es factible usar un clasificador cognitivo como fuzzy ARTMAP para crear una representación simultánea de la estructura y de la propiedad objetivo. Este tipo de sistema cognitivo usa un aprendizaje competitivo, en el cual hay una activa búsqueda de la categoría o la hipótesis cuyos prototipos provean una mejor representación de los datos de entrada (estructura química).<br/><br/>En el presente trabajo se propone y se estudia una metodología que integra dos sistemas cognitivos SOM y fuzzy ARTMAP para obtener modelos QSAR/QSPR. Los modelos estiman diferentes propiedades como las temperaturas de transición de fase (temperatura de ebullición, temperatura de fusión) y propiedades críticas (temperatura y presión), así como la actividad biológica de compuestos orgánicos diversos (indicadores de toxicidad). Dentro de este contexto, se comparan la selección de variables realizados por métodos tradicionales (PCA, o métodos combinatorios) con la realizada usando mapas auto-organizados (SOM).<br/><br/>El conjunto de descriptores moleculares más factible se obtiene escogiendo un representante de cada categoría de índices, en particular aquel índice con la correlación más alta con respecto a la propiedad objetivo. El proceso continúa añadiendo índices en orden decreciente de correlación. Este proceso concluye cuando una medida de disimilitud entre mapas para los diferentes conjuntos de descriptores alcanza un valor mínimo, lo cual indica que el añadir descriptores adicionales no provee información complementaria a la clasificación de los compuestos estudiados. El conjunto de descriptores seleccionados se usa como vector de entrada a la red fuzzy ARTMAP modificada para poder predecir. <br/><br/>Los modelos propuestos QSPR/QSAR para predecir propiedades tanto físico químicas como actividades biológicas predice mejor que los modelos obtenidos con métodos como backpropagation o métodos de contribución de grupos en los casos en los que se apliquen dichos métodos.


One of the most attractive applications of computer-aided techniques in molecular modeling stands on the possibility of assessing certain molecular properties before the molecule is synthesized. The field of Quantitative Structure Activity/Property Relationships (QSAR/QSPR) has demonstrated that the biological activity and the physical properties of a set of compounds can be mathematically related to some "simple" molecular structure parameters. <br/><br/>Artificial neural network (ANN) approaches provide an alternative to established predictive algorithms for analyzing massive chemical databases, potentially overcoming obstacles arising from variable selection, multicollinearity, specification of important parameters, and sensitivy to erroneous values. In most instances, ANN's have proven to be better than MLR, PCA or PLS because of their ability to handle non-linear associations. <br/><br/>In the last years there has been a growing interest in the application of neural networks to the development of QSAR/QSPR. The mayor advantage of ANN lies in the fact QSAR/QSPR can be developed without having to a priori specify an analytical form for the correlation model. The NN approach is especially suited for mapping complex non-linear relationships that exists between model output (physicochemical or biological properties) and input model (molecular descriptors). The NN approach could also be used to classify chemicals according to their chemical descriptors and used this information to select the most suitable indices capable of characterize the set of molecules. Existing neural networks based QSAR/QSPR for estimating properties of chemicals have relied primarily on backpropagation architecture. Backpropagation are an error based learning system in which adaptive weights are dynamically revised so as to minimize estimation errors of target values. However, since chemical compounds can be classified into various structural categories, it is also feasible to use cognitive classifiers such as fuzzy ARTMAP cognitive system, for unsupervised learning of categories, which represent structure and properties simultaneously. This class of neural networks uses a match-based learning, in that it actively searches for recognition categories or hypotheses whose prototype provides an acceptable match to input data. <br/><br/>The current study have been proposed a new QSAR/QSPR fuzzy ARTMAP neural network based models for predicting diverse physical properties such as phase transition temperatures (boiling and melting points) and critical properties (temperature and pressure) and the biological activities (toxicity indicators) of diverse set of compounds. In addition, traditional pre-screening methods to determine de minimum set of inputs parameters have been compared with novel methodology based in self organized maps algorithms. <br/><br/>The most suitable set of molecular descriptor was obtained by choosing a representative from each cluster, in particular the index that presented the highest correlation with the target variable, and additional indices afterwards in order of decreasing correlation. The selection process ended when a dissimilarity measure between the maps for the different sets of descriptors reached a minimum valued, indicating that the inclusion of more descriptors did not add supplementary information. The optimal subset of descriptors was finally used as input to a fuzzy ARTMAP architecture modified to effect predictive capabilities. <br/><br/>The proposed QSPR/QSAR model predicted physicochemical or biological activities significantly better than backpropagation neural networks or traditional approaches such as group contribution methods when they applied.

Keywords

QSAR; fuzzy ART; self-organizing maps; QSPR; neural networks; toxicidad; redes neuronales; modelado molecular propiedades físico químicas; teoría de grafos; descriptores moleculares; química computacional; carcinogenicidad; mapas auto-organizados; fuzzy ART; fuzzy ARTMAP; backpropagation; métodos de contribución de grupos; carcinogenicity; QSAR; molecular modeling; physicochemical properties; QSPR; toxicity; computational chemistry; molecular descriptors; graph theory; fuzzy ARTMAP; backpropagation

Subjects

62 - Engineering. Technology in general

Documents

TesisGEP.pdf

1.848Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)