학술논문

Large scale quantitative assessment of biodiversity using next-generation sequencing
Document Type
Dissertation/Thesis
Source
TDX (Tesis Doctorals en Xarxa)
Subject
Ciències Experimentals
Language
English
Abstract
Actualmente, los métodos moleculares se aplican ampliamente para el estudio de comunidades biológicas. En organismos eucariotas, la técnica predominante es el DNA metabarcoding. Esta técnica se basa en la amplificación con PCR de una o varias regiones del genoma llamadas barcodes. Sin embargo, la PCR introduce sesgos que dificultan la recuperación de la abundancia relativa original de las especies en muestras complejas. Los sesgos atribuibles a la PCR se pueden evitar mediante la secuenciación aleatoria de todo el ADN de la muestra (shotgun sequencing) y comparando las secuencias contra genomas completos (metagenómica) o genomas mitocondriales (mito-metagenómica). El método metagenómico no es viable actualmente debido al número reducido de especies eucariotas con el genoma completo secuenciado, aunque esta situación parece que mejorará en el futuro. Con el objetivo de explorar las capacidades de los métodos metagenómicos cuando las bases de datos de referencia almacenen el genoma de la mayoría de las especies, nosotros simulamos dicho futuro trabajando con muestras artificiales de insectos cuyo genoma ya se conoce. En primer lugar, exploramos el método metagenómico y observamos que fue capaz de recuperar la identidad y la abundancia relativa de las especies (RSA). De todas formas, fue necesario un límite de detección analítico para reducir la larga lista de especies falso-positivas presentes en concentraciones bajas. A continuación, evaluamos el método mito-metagenómica; este método se aplica actualmente, pero las estimaciones están lejos de ser perfectas, aunque no se utilice la PCR. Los resultados mostraron que el método mito-metagenómico pudo recuperar todas las especies en las muestras de mezclas de ADN, aunque con algunos falsos positivos y también estimó con robustez la RSA dentro de una misma especie (within-species RSA; ¿la especie i es más abundante en la muestra s que en la muestra r?). Pero la abundancia entre diferentes especies (across-species RSA; ¿la especies i es más abundante que la especie j en la muestra s?) sólo se recuperó tras aplicar un factor de corrección específico para cada especie que incluye el número de copias de ADN mitocondrial. Para terminal, exploramos el problema de la detección de especies falso-positivas en los resultados atribuibles a los clasificadores metagenómicos. Con este objetivo, utilizamos dos clasificadores metagenómicos populares (i.e., BLASTn seguido de MEGAN6, y Kraken2) para identificar especies en muestras que contienen una única especie mediante el método mito-metagenómico. Los resultados mostraron que cuando los clasificadores metagenómicos se utilizan con los valores por defecto de los parámetros, se recuperan muchas especies falso-positivas. No obstante, la mayoría de las especies asignadas erróneamente fueron eliminadas mediante la intersección de los resultados de ambos clasificadores y un límite de detección analítico. En resumen, esta tesis proporciona una visión general de las ventajas y limitaciones de los métodos metagenómicos libres de PCR para explorar la biodiversidad de organismos eucariotas en muestras complejas cuando las bases de datos genéticas almacenen el genoma de la mayoría de las especies.
Molecular-based methods for the study of biological communities are widely applied today. For eukaryotes, the dominant technique is DNA metabarcoding. It relies on the PCR-amplification of one or a few genomic regions, so-called barcodes. However, the PCR step introduces biases that make difficult to recover the original relative abundance of species in complex mixtures. All PCR-biases can be avoided by shotgun sequencing all the DNA of a sample and comparing the reads to whole genomes (metagenomics) or mitochondrial genomes (mito-metagenomics). Metagenomic methods are currently unfeasible for real samples due to the low number of eukaryotes with sequenced genomes, but this situation will probably improve in the future. To explore the capabilities of metagenomic methods with reference databases containing the genomes of most species, we simulated such a future using artificial samples of insect species with known genomes. First, we explored metagenomics and found that the method was perfectly able to recover the species identity and the relative species abundance (RSA). However, an analytical detection limit was needed to reduce the long list of low-abundant false positive species. Next, we evaluated the mito-metagenomics method; this method is already being applied today, but the estimations are far from perfect despite the avoidance of the PCR step. Results showed that mito-metagenomics recovered all the species in the mixtures with just a few false positives species and robustly estimated the within-species RSA (is species i more abundant in sample s than in sample r?). However, the across-species RSA (is species i more abundant than species j in sample s?) was only correctly estimated when a species-specific correction factor accounting for the mitochondrial copy number was applied. Finally, we explored the problem of detecting false positive species on the results attributable to the metagenomic classifiers. To this end, we challenged two popular metagenomic classifiers (i.e., BLASTn followed by MEGAN6, and Kraken2) to identify species in single-species samples using mito-metagenomics. The results showed that when the classifiers were used with default parameters, they reported many false positive species. However, most wrongly assigned species were eliminated by the intersection of the results from both classifiers plus an analytical detection limit. In summary, this thesis provides an overview of the advantages and limitations of PCR-free metagenomic methods to explore the biodiversity of eukaryotes in complex samples once the genomic repositories contain the genomes of most species.
Universitat Autònoma de Barcelona. Programa de Doctorat en Bioinformàtica