Computational Analysis of Deep Bedrock Bacterial Communities

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu | Master's thesis
Date
2014-03-31
Department
Major/Subject
Laskennallinen ja kognitiivinen biotiede
Mcode
IL3003
Degree programme
BIO - Bioinformaatioteknologia
Language
en
Pages
70+42
Series
Abstract
Metagenomiikan tieteenalalla tutkitaan, miten tietyn ympäristön parametrit liittyvät siinä eläviin mikrobiyhteisöihin. Laskennallisesti tavoitteena on käsitellä metagenomista dataa siten, että siitä louhitut osajoukot korreloivat mikrobiyhteisöjen elinympäristöstä saatujen mittauksien kanssa. Tässä työssä louhittiin kahden eri metagenomisen, syvän peruskallion pohjavesikerroksista saadun, datajoukon korrelaatiorakennetta vertailemalla pääkomponenttianalyysiä (PCA) ydinfunktio-menetelmällä laajennetun (KCCA) ja asymmetrisen harvan kanonisen korrelaatioanalyysin (SCCA) kanssa. Menetelmiä vertailtiin korrelaatio- ja pistearvokuvaajilla, joita ei ole aikaisemmin sovellettu KCCA- tai SCCA-analyyseihin. Lisäksi SCCA-analyysin projektioiden kanonista korrelaatiota maksimoitiin parametrien optimoinnilla. Monimuuttujamenetelmien tuloksia vertailtiin Pearsonin lineaaristen korrelaatiokerrointen kanssa. Tässä työssä keskityttiin siihen, miten sulfaattia pelkistävät bakteeriyhteisöt vuorovaikuttavat elinympäristöstä saatujen geokemiallisten mittauksien kanssa. Sulfaatin pelkistäjät korreloivat odotetusti sulfaatin ja rikin kokonaismäärän kanssa. Tämän lisäksi sulfaatin pelkistäjät korreloivat pohjaveden suolaisuuden kanssa. Laskennallisesta näkökulmasta katsottuna SCCA oli menetelmistä stabiilein ja käyvin. Eri projektiosuuntien kanonisten korrelaatioiden vaihtelu korostui SCCA-analyysin parametrien optimoinnissa. Tässä työssä esitettyä tapaa visualisoida monimuuttujamenetelmien tuloksia voidaan hyödyntää myös muihinkin projektioihin perustuviin menetelmiin.

In the field of metagenomics, the aim is to relate characteristic environmental parameters to the microbial communities inhabiting the study site. In a computational framework, the objective is to extract subsets of features in metagenomic data that correlate with measurements obtained from the living environment of the microbial communities. We compared projection-based multivariate methods, principal component analysis (PCA), kernel canonical correlation analysis (KCCA) and asymmetrical sparse canonical correlation analysis (SCCA), by means of correlation and score plots, in order to assess the capability of each method to reveal the underlying correlation structure of two different metagenomic data sets originating from deep bedrock drill holes. This approach is novel in the sense that correlation and score plots have not yet been applied to the visualization of KCCA and SCCA results. We also integrated parameter optimization in SCCA in order to further maximize the correlation of the projections. As a basis of comparison, we computed Pearson's correlation coefficient among the two sets of features. From a microbiological perspective, we concentrated on the interactions of sulfate reducing bacteria with the geochemical measurements. In addition to the expected positive correlations with sulfate and total amount of sulfur, we discovered positive correlations among salinity and sulfate reducers. From a computational perspective, we demonstrated the feasibility and stability of SCCA in the extraction of highly correlating features from two co-dependent data sets in comparison to Pearson's correlation coefficient, PCA and KCCA. The results of the parameter optimization in SCCA emphasized the importance of selection of projection directions in terms of correlation. The presented framework of visualizing and selecting the projection directions can also be extended to other multivariate projection-based methods.
Description
Supervisor
Rousu, Juho
Thesis advisor
Bomberg, Malin
Keywords
metagenome, deep bedrock aquifer, multivariate data analysis, kernel methods, optimization, correlation, dimensionality reduction, feature extraction, metagenomi, syvän peruskallion pohjavesikerros, monimuuttuja-analyysi, ydinfunktio-menetelmät, optimointi, korrelaatio, dimension redusointi, hahmontunnistus
Other note
Citation