Mapping natural selection through the drosophila melanogaster development following a multiomics data integration approach

Author

Coronado Zamora, Marta

Director

Barbadilla Prados, Antonio

Salazar Ciudad, Isaac

Date of defense

2018-12-18

ISBN

9788449085512

Pages

281 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament de Genètica i de Microbiologia

Abstract

La teoria de l'evolució de Charles Darwin proposa que les adaptacions dels organismes sorgeixen com a conseqüència del procés de la selecció natural. La selecció natural deixa una empremta característica en els patrons de variació genètica que pot detectar-se mitjançant mètodes estadístics d'anàlisi genòmica. Avui en dia podem inferir l'acció de la selecció natural en el genoma i fins i tot quantificar quina proporció de les noves variants genètiques que incorpora una espècie són adaptatives. L’era genòmica ha conduït a la situació paradoxal en la qual disposem de més informació sobre la selecció en el genoma que sobre el fenotip de l’organisme, l’objectiu principal de la selecció natural. El desenvolupament de les tecnologies de seqüenciació de nova generació (NGS, per les seves sigles en anglès) està proporcionant una gran quantitat de dades -òmiques, incrementant notablement la disponibilitat de sèries transcriptòmiques del desenvolupament. A diferència del genoma d'un organisme, el transcriptoma és un fenotip que varia al llarg de la vida i en diferents parts del cos. L'estudi d'un transcriptoma des d'una perspectiva genòmica-poblacional i espai-temporal és un enfocament prometedor per comprendre les bases genètiques i del desenvolupament del canvi fenotípic. Aquesta tesi és un projecte integrador de genòmica de poblacions i biologia evolutiva seguint un enfocament bioinformàtic. Es compon de tres passos seqüencials: (i) la comparativa d'un conjunt de mètodes de McDonald i Kreitman (MKT), un test per detectar selecció positiva recurrent en seqüències codificants a nivell molecular, utilitzant tant dades empíriques d'una població nord-americana de D. melanogaster i dades simulades, (ii) la inferència de les característiques del genoma que es correlacionen amb la tassa evolutiva dels gens codificadors de proteïnes, i (iii) la integració de patrons de variació genòmica amb anotacions de grans conjunts de dades espai-temporals del desenvolupament (evo-dev-omics). Com a resultat d'aquest enfocament hem dut a terme dos estudis diferents que integren els patrons de diversitat genòmica amb capes multiòmiques al llarg del desenvolupament, tant en el temps com en l'espai. En el primer estudi, donem una perspectiva global sobre com actua la selecció natural durant tot el cicle de vida de D. melanogaster, avaluant com els diferents règims de selecció actuen a través dels diferents estadis del desenvolupament. En el segon estudi, tracem un mapa exhaustiu de com la selecció actua sobre l'anatomia completa de l'embrió de D. melanogaster. En conjunt, els nostres resultats mostren que els gens expressats en el desenvolupament embrionari mitjà i tardà exhibeixen la major conservació a nivell de seqüència i una estructura gènica més complexa: són més llargs, contenen més exons i introns més llargs, codifiquen un gran nombre de isoformes i, de mitjana, tenen més expressió. El constrenyiment selectiu és ubic, especialment afectant els sistemes digestiu i nerviós. D'altra banda, els primers estadis del desenvolupament embrionari són els més divergents, i sembla ser degut a una menor eficàcia de la selecció natural sobre els gens d'efecte matern. A més, els gens expressats en aquestes primeres etapes tenen, de mitjana, els introns més curts, probablement degut a la necessitat d'expressar-se ràpidament i eficientment durant els cicles cel·lulars curts. L'adaptació es produeix en aquelles estructures que també mostren evidències d'adaptació en l'adult, el sistema immunològic i el sistema reproductiu. Finalment, els gens que s’expressen en una o unes poques estructures anatòmiques són evolutivament més joves i exhibeixen unes taxes d'evolució més altes, a diferència dels gens que s’expressen en totes o gairebé totes les estructures. La genòmica de poblacions ja no és una ciència teòrica, s’ha convertit en un camp interdisciplinari on la bioinformàtica, grans conjunts de dades -òmiques, models estadístics i evolutius i tècniques moleculars emergents s’integren per obtenir una visió sistèmica de les causes i les conseqüències de l’evolució. La integració de la genòmica de poblacions amb altres dades fenotípiques multiòmiques és un pas necessari per obtenir una visió global de com l’adaptació ocorre en la natura.


Charles Darwin's theory of evolution proposes that the adaptations of organisms arise because of the process of natural selection. Natural selection leaves a characteristic footprint on the patterns of genetic variation that can be detected by means of statistical methods of genomic analysis. Today, we can infer the action of natural selection in a genome and even quantify what proportion of the incorporated genetic variants in the populations are adaptive. The genomic era has led to the paradoxical situation in which much more evidence of selection is available on the genome than on the phenotype of the organism, the primary target of natural selection. The advent of next-generation sequencing (NGS) technologies is providing a vast amount of -omics data, especially increasing the breadth of available developmental transcriptomic series. In contrast to the genome of an organism, the transcriptome is a phenotype that varies during the lifetime and across different body parts. Studying a developmental transcriptome from a population genomic and spatio-temporal perspective is a promising approach to understand the genetic and developmental basis of the phenotypic change. This thesis is an integrative population genomics and evolutionary biology project following a bioinformatic approach. It is performed in three sequential steps: (i) the comparison of different variations of the McDonald and Kreitman test (MKT), a method to detect recurrent positive selection on coding sequences at the molecular level, using empirical data from a North American population of D. melanogaster and simulated data, (ii) the inference of the genome features correlated with the evolutionary rate of protein-coding genes, and (iii) the integration of patterns of genomic variation with annotations of large sets of spatio-temporal developmental data (evo-dev-omics). As a result of this approach, we have carried out two different studies integrating the patterns of genomic diversity with multiomics layers across developmental time and space. In the first study we give a global perspective on how natural selection acts during the whole life cycle of D. melanogaster, assessing whether different regimes of selection act through the developmental stages. In the second study, we draw an exhaustive map of selection acting on the complete embryo anatomy of D. melanogaster. Taking all together, our results show that genes expressed in mid- and late-embryonic development stages exhibit the highest sequence conservation and the most complex structure: they are larger, consist of more exons and longer introns, encode a large number of isoforms and, on average, are highly expressed. Selective constraint is pervasive, particularly on the digestive and nervous systems. On the other hand, earlier stages of embryonic development are the most divergent, which seems to be due to the diminished efficiency of natural selection on maternal-effect genes. Additionally, genes expressed in these first stages have on average the shortest introns, probably due to the need for a rapid and efficient expression during the short cell cycles. Adaptation is found in the structures that also show evidence of adaptation in the adult, the immune and reproductive systems. Finally, genes that are expressed in one or a few different anatomical structures are younger and have higher rates of evolution, unlike genes that are expressed in all or almost all structures. Population genomics is no longer a theoretical science, it has become an interdisciplinary field where bioinformatics, large functional -omics datasets, statistical and evolutionary models and emerging molecular techniques are all integrated to get a systemic view of the causes and consequences of evolution. The integration of population genomics with other phenotypic multiomics data is the necessary step to gain a global picture of how adaptation occurs in nature.

Keywords

Genètica de poblacions; Genética de poblaciones; Populaion genomics; Biologia evolutiva; Biología evolutiva; Evolutionary biology; Bioinformàtica; Bioinformática; Bioinformatics

Subjects

575 - General genetics. General cytogenetics

Knowledge Area

Ciències Experimentals

Documents

mcz1de1.pdf

2.282Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)