Comparison of normalization and statistical testing methods of 16S rRNA gene sequencing data
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
Department
Major/Subject
Mcode
SCI3058
Degree programme
Language
en
Pages
61+7
Series
Abstract
The decreasing cost and increasing speed of next-generation sequencing techniques now enable more affordable and time effective access to human microbiomes. The aim of many 16S ribosomal RNA (rRNA) gene sequencing experiments is to identify the taxa significantly differing in the abundance between two or more conditions. However, increasing awareness about the compositional nature of the 16S rRNA gene sequencing data has evoked concerns about the validity of conclusions drawn from this type of data. Many early differential abundance testing methods completely ignore the compositionality or uneven library sizes. Recently, new methods taking the compositionality into account have been developed with the aim to ensure scale invariance and sub-compositional coherence. However, the constitutive problem of compositional data not containing the information needed for differential abundance testing remains a major challenge. The aim of this thesis was to evaluate different methods used for differential abundance testing for 16S rRNA gene sequencing data using both simulated and real data. Overall, we found that the simulation results are very dependent upon the simulation design and data characteristics. We confirm that better detection performance was achieved with bigger effect size and when more samples were available. The experiment performed on real data revealed that big differences between the methods still appear. Centered log-ratio (CLR) transformation prior to statistical tests produced the highest detection accuracy in our simulation experiments. CLR transformation in combination with Reproducibility-Optimized Test Statistic (ROTS) or Wilcoxon rank sum test produced nearly equal results on bigger sample sizes. However, on small sample sizes ROTS outperformed Wilcoxon rank sum test. Thus, based on our results, the use of CLR transformation combined with ROTS statistical test can be encouraged for the differential abundance testing on 16S rRNA gene sequencing data.Kiinnostus ihmisen mikrobistoa kohtaan on kasvanut viime vuosien aikana, sillä kehittyneet sekvensointitekniikat ovat luoneet mahdollisuuden kartoittaa mikrobiston koostumusta sekä löytää mahdollisia yhteyksiä ihmisen mikrobison koostumuksen ja yksilön terveyden tilan välillä. Tämän seurauksena, mikrobisto tutkimusten määrä on lisääntynyt huomattavasti. Kuitenkin kasvanut ymmärrys 16S rRNA geenisekvenssi datan suhteellisesta luonteesta on luonut tarpeen uusille datan analysointimenetelmille. Monet aiemmin käytetyistä menetelmistä jättävät datan suhteellisen luonteen tai näytteiden välisen vaihtelevan DNA-kirjaston koon kokonaan huomioimatta. Suhteellinen data ei sisällä informaatiota näytteen absoluuttisista sekvenssimääristä, toisaalta hyvin eri kokoisten kirjastojen välinen testaus on ongelmallista, ja käyttökelpoisen datan poistaminen epämielekästä. Näiden ongelmien todettu johtavan virheellisiin päätelmiin, erityisesti kun tavoitteena on määrittää ne mikrobit, joiden määrä testattavissa ympäristöissä eroaa tilastollisesti merkittävästi. Tämän diplomityön tarkoituksena oli vertailla erilaisia menetelmiä, joilla pyritään havaitsemaan erilailla edustettuja mikrobeja 16S rRNA geenisekvenssi datasta. Kaiken kaikkiaan simulaatiotulokset osoittautuivat olevan hyvin riippuvaisia simulaatiomallista ja siten datan ominaisuuksista. Tuloksemme vahvistivat, että menetelmien havaitsemistehokkuus kasvoi, kun näytemäärä oli isompi. Oikealla datalla suoritettu tutkimus paljasti suuria eroja menetelmien välillä. CLR-transformaatio ennen tilastollista testiä johti parhaisiin tuloksiin simulaatiokokeessamme. CLR-transformaatio yhdistettynä ROTS tilastolliseen testiin tuotti parhaita tuloksia varsinkin pienillä näytemäärillä. Tulosten perusteella CLR-transformaatiota ja ROTS tilastollista testiä voidaan suositella käytettäväksi eri lailla edustettujen mikrobien löytämiseen 16S rRNA geenisekvenssi datasta.Description
Supervisor
Lähdesmäki, HarriThesis advisor
Elo, LauraAakko, Juhani