New algorithmic contributions for large scale multiple sequence alignments of protein sequences

dc.contributor
Universitat Pompeu Fabra. Departament de Ciències Experimentals i de la Salut
dc.contributor.author
Garriga Nogales, Edgar
dc.date.accessioned
2022-02-18T16:27:03Z
dc.date.available
2022-02-18T16:27:03Z
dc.date.issued
2022-02-15
dc.identifier.uri
http://hdl.handle.net/10803/673526
dc.description.abstract
In these days of significant changes and the rapid evolution of technology, the amount of datascience has to deal with the growth incredibly fast, and the size of data could be prohibitive.Multiple Sequence Alignments (MSA) are used in various areas of biology, and the increase ofdata has produced a degradation of the methods. That is why is proposed a new solution toperform the MSA. This novel paradigm allows the alignment of millions of sequences and theability to modularize the process. Regressive enables the parallelization of the process and thecombination of clustering methods (guide-tree) with whatever aligner is desired. On theclustering side, the guide-tree has to be rethought. A study of the current state of the methodsand their strength and weaknesses have been performed to shed some light on the topic. Theguide-tree cannot be the bottleneck, and it should provide a good starting point for the aligners.
dc.description.abstract
En aquests dies de profunds canvis i una ràpida evolució de la tecnologia, la quantitat de dataque la ciència ha de treballar ha crescut increïblement ràpid i la grandària dels arxius ha crescutde manera quasi prohibitiva.Els alineaments múltiples de seqüència (MSA) es fan servir endiverses àrees de la biologia, i l'increment de les dades ha produït una degradació delsresultats. És per això, que es proposa una nova estratègia per realitzar els alineaments. Aquestnou paradigma permet alinear milions de seqüències i l'opcio de modularitzar el procés.'Regressive' permet la paral·lelització del procés i la combinació de diferents algoritmesd'agrupacio (guide-tree) amb el mètode de alineament que és desitgi. Dins del camp del'agrupació, s'ha de repensar l'estratègia per crear els guide-tree. Un estudi sobre l'estat actualdels mètodes i les seves virtuts i punts febles ha sigut realitzar per llençar una mica de llum enaquesta àrea. Els 'guide-tree' no poden ser el coll de botella, i haurien de servir per començarde la millor manera possible el procés d'alineament.
dc.format.extent
72 p.
dc.format.mimetype
application/pdf
dc.language.iso
eng
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Multiple sequence alignment
dc.subject
Regressive alignment
dc.subject
Reproducibility
dc.subject
Guide-tree
dc.subject
Containers
dc.subject
Alineaments
dc.subject
Reproducibilitat
dc.subject
Escalabilitat
dc.subject
Alineament regressiu
dc.title
New algorithmic contributions for large scale multiple sequence alignments of protein sequences
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
577
dc.contributor.authoremail
edgar.garriga@crg.eu
dc.contributor.director
Notredame, Cedric
dc.embargo.terms
cap
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Biomedicina


Documents

tegn.pdf

8.116Mb PDF

This item appears in the following Collection(s)