Bacterial whole-genome sequencing for establishment of reference sequences, comparative genomics, biomarker discovery and characterization of novel taxa.

Author

Salvà Serra, Francisco

Director

Bennasar Figueras, Antoni

R. B. Moore, Edward

Engström Jakobsson, Hedvig

Tutor

Antoni Bennasar, Antoni

Date of defense

2023-07-25

Pages

188 p.



Department/Institute

Universitat de les Illes Balears. Doctorat en Microbiologia Ambiental i Biomèdica

Abstract

[eng] Bacteria are the most ubiquitous and widely distributed organisms and play major roles in almost any environment. Therefore, studying and understanding their biology is essential to secure the well-being of the planet and humanity. This can be done by determining, analyzing, and characterizing their genome sequences, which has been facilitated thanks to the development of high-throughput DNA sequencing technologies. In this thesis, whole-genome sequencing methodologies were used for establishing bacterial reference genome sequences, including those of the type strains of species within three selected taxa (Papers I, II, III, IV, VI and VIII): Stutzerimonas balearica (formerly, Pseudomonas balearica), a marine bacterium with capacities for degrading aromatic compounds; species of the genus Streptococcus, which encompasses well-known commensal species as well as major human pathogens; and of the family Enterobacteriaceae, an ecologically diverse and taxonomically complex group of bacteria, members of which can be found in many different environments and also can cause an extensive range of diseases in humans. The different methodologies utilized in the studies of this thesis reflect the marked evolution of high-throughput DNA sequencing technologies that has occurred in the last years; this includes the capacity for determining highly accurate complete genome sequences, using the latest long-read sequencing technologies. These developments have led to vast amounts of publicly available genome sequence data, which are essential for downstream studies, such as those described in Papers VI – VIII. However, not everything is positive (“All that glitters is not gold”) about the databases of whole-genome sequences, and Paper V warns users of publicly available genome sequences about the presence of “false” type strain genome sequences and the importance of performing quality controls on the sequence data used in research studies. Subsequently, in Paper VI, the genome sequences determined in Papers I and II were used in combination with publicly available genome sequences to perform a comparative genomic study for elucidating the genomic diversity of S. balearica and its potential for biodegradation of aromatic compounds. Genome sequence data also facilitated the establishment of a strategy for detecting additional strains of S. balearica, based on 16S rRNA gene signature nucleotide positions and sequence similarities for determining the habitats of the species. In Paper VII, hundreds of genome sequences of the Mitis-Group of the genus Streptococcus allowed the determination of a biomarker gene specific for the human pathogen Streptococcus pneumoniae and the establishment of a PCR-based species-specific assay for differentiating S. pneumoniae from closely-related species, which has often hindered accurate identification. In Paper VIII, whole-genome sequencing, in combination with publicly available type strain genome sequences, enabled the confirmation that a clinical isolate of the family Enterobacteriaceae, which was not able to be further identified at clinical laboratories, represents a novel genus and species (Scandinavium goeteborgense) within the family Enterobacteriaceae (Scandinavium goeteborgense) and to accurately determine its taxonomic position. The specific contributions of this thesis exemplify and demonstrate that the latest developments of high-throughput DNA sequencing and whole-genome sequencing have certainly pushed the limits of microbiology and life sciences to a next level, in which we can establish solid grounds for down-stream research and applications and explore the genomic insights of bacteria with extremely high resolution.


[cat] Els bacteris són els organismes més ubics i àmpliament distribuïts, a més de desenvolupar rols importants en pràcticament qualsevol ambient que habiten. Per tant, l'estudi i la comprensió de la seva biologia són essencials per garantir el benestar del planeta i de la humanitat. El desenvolupament de les tecnologies de seqüenciació d'ADN d'alt rendiment ha permès dur a terme l'abordatge d'aquests aspectes mitjançant l'anàlisi i la caracterització de les seqüències genòmiques. En aquesta tesi, es van utilitzar metodologies de seqüenciació de genomes per a establir seqüències de referència de genomes de diversos bacteris d’interès clínic o ambiental; incloent-hi soques tipus d'espècies de tres tàxons (articles I, II, III, IV, VI i VIII): Stutzerimonas balearica (anteriorment, Pseudomonas balearica), un bacteri marí amb capacitats per a degradar compostos aromàtics; espècies del gènere Streptococcus, que abasta espècies comensals i també importants patògens humans; i de la família Enterobacteriaceae, un grup de bacteris ecològicament divers i taxonòmicament complex, els membres del qual es poden trobar en ambients molt diversos i alguns dels quals poden causar una àmplia gamma de malalties en humans. Les diferents metodologies utilitzades en els estudis d'aquesta tesi reflecteixen la marcada evolució de les tecnologies de seqüenciació d'ADN d'alt rendiment que ha tingut lloc en els últims anys. En aquest sentit, cal destacar la capacitat per determinar amb gran exactitud seqüències completes de genomes, fent servir les últimes tecnologies de seqüenciació de lectura llarga. Aquests avanços han donat lloc a la generació de grans quantitats de dades de seqüenciació de genomes, els quals estan disponibles en bases de dades públiques i són essencials per a estudis posteriors, com els descrits en els articles VI - VIII. No obstant això, no és or tot el que lluu i en aquest cas no tot és positiu sobre les bases de dades de seqüències de genomes complets. Així, l'article V adverteix els usuaris de bases de dades de seqüències públiques sobre la presència de seqüències de genomes assignades “falsament” a soques tipus; així com de la importància de realitzar controls de qualitat en les dades públiques, especialment en aquelles que s'utilitzin com a referències. Posteriorment, en l'article VI, les seqüències de genomes determinades en els articles I i II van ser utilitzades en combinació amb seqüències públiques de genomes per a realitzar un estudi genòmic comparatiu i elucidar la diversitat genòmica de S. balearica i el seu potencial per a degradar compostos aromàtics. Les seqüències de genomes també van facilitar l'establiment d'una estratègia per a detectar soques addicionals de S. balearica, basada en els nucleòtids signa del gen 16S rRNA i similitud de seqüència per a determinar els hàbitats de l'espècie. En l'article VII, l’ús de centenars de seqüències de genomes del Grup Mitis del gènere Streptococcus van permetre la determinació d'un gen biomarcador específic per al patogen humà Streptococcus pneumoniae i l'establiment d'un assaig PCR per a diferenciar S. pneumoniae d'espècies estretament relacionades, que sovint han obstaculitzat la seva identificació precisa. En l'article VIII, la seqüenciació de genomes, en combinació amb seqüències públiques de genomes de soques tipus, va permetre confirmar que un aïllat clínic de la família Enterobacteriaceae, el qual no havia pogut ser identificat als laboratoris clínics aplicant les metodologies clàssiques basades en el cultiu, representa una nova espècie i nou gènere (Scandinavium goeteborgense) de la família Enterobacteriaceae, i va permetre determinar amb precisió la seva posició taxonòmica. Les contribucions específiques d'aquesta tesi exemplifiquen i demostren que els darrers avenços en la seqüenciació d'ADN d'alt rendiment i en la seqüenciació de genomes sencers han portat al camp de les ciències de la vida en general i de la microbiologia en particular a un nivell superior, on podem establir bases sòlides per a investigacions i aplicacions posteriors i explorar les entranyes genòmiques dels bacteris amb una resolució extremadament alta.


[spa] Las bacterias son los organismos más ubicuos y ampliamente distribuidos, además de desempeñar roles importantes en prácticamente cualquier ambiente que habitan. Por lo tanto, el estudio y la comprensión de su biología son esenciales para garantizar el bienestar del planeta y de la humanidad. El desarrollo de las tecnologías de secuenciación de ADN de alto rendimiento ha permitido llevar a cabo el abordaje de estos aspectos mediante el análisis y caracterización de sus secuencias genómicas. En esta tesis, se utilizaron metodologías de secuenciación de genomas para establecer secuencias de referencia de genomas de varias bacterias de interés clínico o ambiental, incluyendo cepas tipo de especies de tres taxones (artículos I, II, III, IV, VI y VIII): Stutzerimonas balearica (anteriormente, Pseudomonas balearica), una bacteria marina con capacidades para degradar compuestos aromáticos; especies del género Streptococcus, que abarca especies comensales y también importantes patógenos humanos; y de la familia Enterobacteriaceae, un grupo de bacterias ecológicamente diverso y taxonómicamente complejo, cuyos miembros se pueden encontrar en ambientes muy diversos y algunos de los cuales pueden causar una amplia gama de enfermedades en humanos. Las diferentes metodologías utilizadas en los estudios de esta tesis reflejan la marcada evolución de las tecnologías de secuenciación de ADN de alto rendimiento que ha tenido lugar en los últimos años. En este sentido, cabe destacar la capacidad para determinar con gran exactitud secuencias completas de genomas, utilizando las últimas tecnologías de secuenciación de lectura larga. Estos avances han dado lugar a la generación de grandes cantidades de datos de secuenciación de genomas, los cuales están disponibles en bases de datos públicas y son esenciales para estudios posteriores, como los descritos en los artículos VI - VIII. Sin embargo, no es oro todo lo que reluce y en este caso no todo es positivo acerca de las bases de datos de secuencias de genomas completos. Así, el artículo V advierte a los usuarios de bases de datos de secuencias públicas acerca de la presencia de secuencias de genomas asignadas “falsamente” a cepas tipo; así como de la importancia de realizar controles de calidad en los datos públicos, especialmente en aquellos que vayan a ser utilizados como referencias. Posteriormente, en el artículo VI, las secuencias de genomas determinadas en los artículos I y II fueron utilizadas en combinación con secuencias públicas de genomas para realizar un estudio genómico comparativo y elucidar la diversidad genómica de S. balearica y su potencial para biodegradar compuestos aromáticos. Las secuencias de genomas también facilitaron el establecimiento de una estrategia para detectar cepas adicionales de S. balearica, basada en los nucleótidos firma del gen 16S rRNA y similitud de secuencia para determinar los hábitats de la especie. En el artículo VII, el uso de cientos de secuencias de genomas del Grupo Mitis del género Streptococcus permitieron la determinación de un gen biomarcador específico para el patógeno humano Streptococcus pneumoniae y el establecimiento de un ensayo PCR para diferenciar S. pneumoniae de especies estrechamente relacionadas, que a menudo han obstaculizado su identificación precisa. En el artículo VIII, la secuenciación de genomas, en combinación con secuencias públicas de genomas de cepas tipo, permitió confirmar que un aislado clínico de la familia Enterobacteriaceae, el cual no había podido ser identificado en los laboratorios clínicos aplicando las metodologías clásicas, basadas en el cultivo, representa una nueva especie y nuevo género (Scandinavium goeteborgense) dentro de la familia Enterobacteriaceae, y permitió determinar con precisión su posición taxonómica. Las contribuciones específicas de esta tesis ejemplifican y demuestran que los últimos avances en la secuenciación de ADN de alto rendimiento y en la secuenciación de genomas enteros, han llevado al campo de las ciencias de la vida en general y de la microbiología en particular a un nivel superior, en el que podemos establecer bases sólidas para investigaciones y aplicaciones posteriores y explorar las entrañas genómicas de las bacterias con una resolución extremadamente alta.

Subjects

579 - Microbiology; 61 - Medical sciences

Knowledge Area

Microbiologia i Biomedicina

Documents

Salva_Serra_Francisco.pdf

1.333Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)