Computational Analysis of Deep Bedrock Bacterial Communities

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Master's thesis

Date

2014-03-31

Department

Major/Subject

Laskennallinen ja kognitiivinen biotiede

Mcode

IL3003

Degree programme

BIO - Bioinformaatioteknologia

Language

en

Pages

70+42

Series

Abstract

Metagenomiikan tieteenalalla tutkitaan, miten tietyn ympäristön parametrit liittyvät siinä eläviin mikrobiyhteisöihin. Laskennallisesti tavoitteena on käsitellä metagenomista dataa siten, että siitä louhitut osajoukot korreloivat mikrobiyhteisöjen elinympäristöstä saatujen mittauksien kanssa. Tässä työssä louhittiin kahden eri metagenomisen, syvän peruskallion pohjavesikerroksista saadun, datajoukon korrelaatiorakennetta vertailemalla pääkomponenttianalyysiä (PCA) ydinfunktio-menetelmällä laajennetun (KCCA) ja asymmetrisen harvan kanonisen korrelaatioanalyysin (SCCA) kanssa. Menetelmiä vertailtiin korrelaatio- ja pistearvokuvaajilla, joita ei ole aikaisemmin sovellettu KCCA- tai SCCA-analyyseihin. Lisäksi SCCA-analyysin projektioiden kanonista korrelaatiota maksimoitiin parametrien optimoinnilla. Monimuuttujamenetelmien tuloksia vertailtiin Pearsonin lineaaristen korrelaatiokerrointen kanssa. Tässä työssä keskityttiin siihen, miten sulfaattia pelkistävät bakteeriyhteisöt vuorovaikuttavat elinympäristöstä saatujen geokemiallisten mittauksien kanssa. Sulfaatin pelkistäjät korreloivat odotetusti sulfaatin ja rikin kokonaismäärän kanssa. Tämän lisäksi sulfaatin pelkistäjät korreloivat pohjaveden suolaisuuden kanssa. Laskennallisesta näkökulmasta katsottuna SCCA oli menetelmistä stabiilein ja käyvin. Eri projektiosuuntien kanonisten korrelaatioiden vaihtelu korostui SCCA-analyysin parametrien optimoinnissa. Tässä työssä esitettyä tapaa visualisoida monimuuttujamenetelmien tuloksia voidaan hyödyntää myös muihinkin projektioihin perustuviin menetelmiin.

In the field of metagenomics, the aim is to relate characteristic environmental parameters to the microbial communities inhabiting the study site. In a computational framework, the objective is to extract subsets of features in metagenomic data that correlate with measurements obtained from the living environment of the microbial communities. We compared projection-based multivariate methods, principal component analysis (PCA), kernel canonical correlation analysis (KCCA) and asymmetrical sparse canonical correlation analysis (SCCA), by means of correlation and score plots, in order to assess the capability of each method to reveal the underlying correlation structure of two different metagenomic data sets originating from deep bedrock drill holes. This approach is novel in the sense that correlation and score plots have not yet been applied to the visualization of KCCA and SCCA results. We also integrated parameter optimization in SCCA in order to further maximize the correlation of the projections. As a basis of comparison, we computed Pearson's correlation coefficient among the two sets of features. From a microbiological perspective, we concentrated on the interactions of sulfate reducing bacteria with the geochemical measurements. In addition to the expected positive correlations with sulfate and total amount of sulfur, we discovered positive correlations among salinity and sulfate reducers. From a computational perspective, we demonstrated the feasibility and stability of SCCA in the extraction of highly correlating features from two co-dependent data sets in comparison to Pearson's correlation coefficient, PCA and KCCA. The results of the parameter optimization in SCCA emphasized the importance of selection of projection directions in terms of correlation. The presented framework of visualizing and selecting the projection directions can also be extended to other multivariate projection-based methods.

Description

Supervisor

Rousu, Juho

Thesis advisor

Bomberg, Malin

Keywords

metagenome, deep bedrock aquifer, multivariate data analysis, kernel methods, optimization, correlation, dimensionality reduction, feature extraction, metagenomi, syvän peruskallion pohjavesikerros, monimuuttuja-analyysi, ydinfunktio-menetelmät, optimointi, korrelaatio, dimension redusointi, hahmontunnistus

Other note

Citation