Large scale quantitative assessment of biodiversity using next-generation sequencing

Author

Garrido Sanz, Lidia

Director

Piñol i Pascual, Josep

Senar Rosell, Miquel Àngel

Date of defense

2022-02-15

Pages

198 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Bioinformàtica

Abstract

Actualment, els mètodes moleculars són aplicats àmpliament en l’estudi de comunitats biològiques. Pels organismes eucariotes, la tècnica dominant és el DNA metabarcoding. Aquest tècnica es basa en l’amplificació amb PCR d’una o varies regions del genoma, anomenades barcodes. Malauradament, la PCR introdueix biaixos que dificulten l’estimació de l’abundància relativa original de les espècies en mostres complexes. Els biaixos lligats a la PCR es poden evitar mitjançant la seqüenciació aleatòria de tot l’ADN de la mostra (shotgun sequencing) i comparant les seqüències obtingudes amb genomes sencers (metagenòmica) o genomes mitocondrials (mito-metagenòmica). El mètode metagenòmic no és factible actualment degut al baix nombre d’espècies eucariotes amb el genoma complert seqüenciat, tot i que aquesta situació sembla que millorarà en el futur. Amb l’objectiu d’explorar les capacitats dels mètodes metagenòmics quan les bases de dades de referència continguin els genomes de la majoria de les espècies, vam simular aquest futur amb mostres artificials d’insectes dels quals ja es coneix el seu genoma. En primer lloc, vam explorar el mètode metagenòmic i vam observar que el mètode va ser capaç de recuperar la identitat i l’abundància relativa de les espècies (RSA). De totes maneres, va ser necessari aplicar un límit de detecció per a reduir la llarga llista d’espècies fals-positives i amb baixa concentració. A continuació vam avaluar el mètode mito-metagenòmic; aquest mètodes ja s’aplica avui en dia, però les estimacions són lluny de ser perfectes malgrat l’absència de la PCR. Els resultats van mostrar que el mètode mito-metagenòmic va recuperar totes les espècies en les mostres de barreges d’ADN amb l’addició d’alguns falsos positius i va estimar amb robustesa la RSA dintre de la mateixa espècie (within-species RSA; l’espècie i és més abundant a la mostra s que a la mostra r?). En canvi, l’abundància entre diferents espècies (across-species RSA; l’espècie i és més abundant que l’espècie j a la mostra s?) només es va recuperar després d’aplicar un factor de correcció específic per a cada espècie que inclou el número de copies d’ADN mitocondrials. Finalment, vam explorar el problema de la detecció d’espècies fals-positives als resultats atribuïbles als classificadors metagenòmics. Amb aquest objectiu, vam utilitzar dos classificadors metagenòmics populars (i.e., BLASTn seguit de MEGAN6, i Kraken2) per identificar espècies en mostres que contenien una única espècie mitjançant el mètode mito-metagenòmic. Els resultats van mostrar que quan els classificadors metagenòmics s’utilitzen amb els paràmetres per defecte, aquest retornen moltes espècies fals-positives. No obstant això, la majoria de les espècies assignades erròniament van ser eliminades amb la intersecció dels resultats d'ambdós classificadors i l’addició d’un límit de detecció analític. En resum, aquesta tesi proporciona una visió general dels avantatges i limitacions dels mètodes metagenòmics independents de la PCR per explorar la biodiversitat dels organismes eucariotes en mostres complexes un cop les bases de dades genètiques continguin els genomes de la majoria de les espècies.


Actualmente, los métodos moleculares se aplican ampliamente para el estudio de comunidades biológicas. En organismos eucariotas, la técnica predominante es el DNA metabarcoding. Esta técnica se basa en la amplificación con PCR de una o varias regiones del genoma llamadas barcodes. Sin embargo, la PCR introduce sesgos que dificultan la recuperación de la abundancia relativa original de las especies en muestras complejas. Los sesgos atribuibles a la PCR se pueden evitar mediante la secuenciación aleatoria de todo el ADN de la muestra (shotgun sequencing) y comparando las secuencias contra genomas completos (metagenómica) o genomas mitocondriales (mito-metagenómica). El método metagenómico no es viable actualmente debido al número reducido de especies eucariotas con el genoma completo secuenciado, aunque esta situación parece que mejorará en el futuro. Con el objetivo de explorar las capacidades de los métodos metagenómicos cuando las bases de datos de referencia almacenen el genoma de la mayoría de las especies, nosotros simulamos dicho futuro trabajando con muestras artificiales de insectos cuyo genoma ya se conoce. En primer lugar, exploramos el método metagenómico y observamos que fue capaz de recuperar la identidad y la abundancia relativa de las especies (RSA). De todas formas, fue necesario un límite de detección analítico para reducir la larga lista de especies falso-positivas presentes en concentraciones bajas. A continuación, evaluamos el método mito-metagenómica; este método se aplica actualmente, pero las estimaciones están lejos de ser perfectas, aunque no se utilice la PCR. Los resultados mostraron que el método mito-metagenómico pudo recuperar todas las especies en las muestras de mezclas de ADN, aunque con algunos falsos positivos y también estimó con robustez la RSA dentro de una misma especie (within-species RSA; ¿la especie i es más abundante en la muestra s que en la muestra r?). Pero la abundancia entre diferentes especies (across-species RSA; ¿la especies i es más abundante que la especie j en la muestra s?) sólo se recuperó tras aplicar un factor de corrección específico para cada especie que incluye el número de copias de ADN mitocondrial. Para terminal, exploramos el problema de la detección de especies falso-positivas en los resultados atribuibles a los clasificadores metagenómicos. Con este objetivo, utilizamos dos clasificadores metagenómicos populares (i.e., BLASTn seguido de MEGAN6, y Kraken2) para identificar especies en muestras que contienen una única especie mediante el método mito-metagenómico. Los resultados mostraron que cuando los clasificadores metagenómicos se utilizan con los valores por defecto de los parámetros, se recuperan muchas especies falso-positivas. No obstante, la mayoría de las especies asignadas erróneamente fueron eliminadas mediante la intersección de los resultados de ambos clasificadores y un límite de detección analítico. En resumen, esta tesis proporciona una visión general de las ventajas y limitaciones de los métodos metagenómicos libres de PCR para explorar la biodiversidad de organismos eucariotas en muestras complejas cuando las bases de datos genéticas almacenen el genoma de la mayoría de las especies.


Molecular-based methods for the study of biological communities are widely applied today. For eukaryotes, the dominant technique is DNA metabarcoding. It relies on the PCR-amplification of one or a few genomic regions, so-called barcodes. However, the PCR step introduces biases that make difficult to recover the original relative abundance of species in complex mixtures. All PCR-biases can be avoided by shotgun sequencing all the DNA of a sample and comparing the reads to whole genomes (metagenomics) or mitochondrial genomes (mito-metagenomics). Metagenomic methods are currently unfeasible for real samples due to the low number of eukaryotes with sequenced genomes, but this situation will probably improve in the future. To explore the capabilities of metagenomic methods with reference databases containing the genomes of most species, we simulated such a future using artificial samples of insect species with known genomes. First, we explored metagenomics and found that the method was perfectly able to recover the species identity and the relative species abundance (RSA). However, an analytical detection limit was needed to reduce the long list of low-abundant false positive species. Next, we evaluated the mito-metagenomics method; this method is already being applied today, but the estimations are far from perfect despite the avoidance of the PCR step. Results showed that mito-metagenomics recovered all the species in the mixtures with just a few false positives species and robustly estimated the within-species RSA (is species i more abundant in sample s than in sample r?). However, the across-species RSA (is species i more abundant than species j in sample s?) was only correctly estimated when a species-specific correction factor accounting for the mitochondrial copy number was applied. Finally, we explored the problem of detecting false positive species on the results attributable to the metagenomic classifiers. To this end, we challenged two popular metagenomic classifiers (i.e., BLASTn followed by MEGAN6, and Kraken2) to identify species in single-species samples using mito-metagenomics. The results showed that when the classifiers were used with default parameters, they reported many false positive species. However, most wrongly assigned species were eliminated by the intersection of the results from both classifiers plus an analytical detection limit. In summary, this thesis provides an overview of the advantages and limitations of PCR-free metagenomic methods to explore the biodiversity of eukaryotes in complex samples once the genomic repositories contain the genomes of most species.

Subjects

577 - Material bases of life. Biochemistry. Molecular biology. Biophysics

Knowledge Area

Ciències Experimentals

Documents

lgs1de1.pdf

2.299Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/

This item appears in the following Collection(s)