Syvän peruskallion bakteeriyhteisöjen karakterisointia laskennallisin menetelmin

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorBomberg, Malin
dc.contributor.authorUurtio, Viivi
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.supervisorRousu, Juho
dc.date.accessioned2014-04-17T11:44:01Z
dc.date.available2014-04-17T11:44:01Z
dc.date.issued2014-03-31
dc.description.abstractMetagenomiikan tieteenalalla tutkitaan, miten tietyn ympäristön parametrit liittyvät siinä eläviin mikrobiyhteisöihin. Laskennallisesti tavoitteena on käsitellä metagenomista dataa siten, että siitä louhitut osajoukot korreloivat mikrobiyhteisöjen elinympäristöstä saatujen mittauksien kanssa. Tässä työssä louhittiin kahden eri metagenomisen, syvän peruskallion pohjavesikerroksista saadun, datajoukon korrelaatiorakennetta vertailemalla pääkomponenttianalyysiä (PCA) ydinfunktio-menetelmällä laajennetun (KCCA) ja asymmetrisen harvan kanonisen korrelaatioanalyysin (SCCA) kanssa. Menetelmiä vertailtiin korrelaatio- ja pistearvokuvaajilla, joita ei ole aikaisemmin sovellettu KCCA- tai SCCA-analyyseihin. Lisäksi SCCA-analyysin projektioiden kanonista korrelaatiota maksimoitiin parametrien optimoinnilla. Monimuuttujamenetelmien tuloksia vertailtiin Pearsonin lineaaristen korrelaatiokerrointen kanssa. Tässä työssä keskityttiin siihen, miten sulfaattia pelkistävät bakteeriyhteisöt vuorovaikuttavat elinympäristöstä saatujen geokemiallisten mittauksien kanssa. Sulfaatin pelkistäjät korreloivat odotetusti sulfaatin ja rikin kokonaismäärän kanssa. Tämän lisäksi sulfaatin pelkistäjät korreloivat pohjaveden suolaisuuden kanssa. Laskennallisesta näkökulmasta katsottuna SCCA oli menetelmistä stabiilein ja käyvin. Eri projektiosuuntien kanonisten korrelaatioiden vaihtelu korostui SCCA-analyysin parametrien optimoinnissa. Tässä työssä esitettyä tapaa visualisoida monimuuttujamenetelmien tuloksia voidaan hyödyntää myös muihinkin projektioihin perustuviin menetelmiin.fi
dc.description.abstractIn the field of metagenomics, the aim is to relate characteristic environmental parameters to the microbial communities inhabiting the study site. In a computational framework, the objective is to extract subsets of features in metagenomic data that correlate with measurements obtained from the living environment of the microbial communities. We compared projection-based multivariate methods, principal component analysis (PCA), kernel canonical correlation analysis (KCCA) and asymmetrical sparse canonical correlation analysis (SCCA), by means of correlation and score plots, in order to assess the capability of each method to reveal the underlying correlation structure of two different metagenomic data sets originating from deep bedrock drill holes. This approach is novel in the sense that correlation and score plots have not yet been applied to the visualization of KCCA and SCCA results. We also integrated parameter optimization in SCCA in order to further maximize the correlation of the projections. As a basis of comparison, we computed Pearson's correlation coefficient among the two sets of features. From a microbiological perspective, we concentrated on the interactions of sulfate reducing bacteria with the geochemical measurements. In addition to the expected positive correlations with sulfate and total amount of sulfur, we discovered positive correlations among salinity and sulfate reducers. From a computational perspective, we demonstrated the feasibility and stability of SCCA in the extraction of highly correlating features from two co-dependent data sets in comparison to Pearson's correlation coefficient, PCA and KCCA. The results of the parameter optimization in SCCA emphasized the importance of selection of projection directions in terms of correlation. The presented framework of visualizing and selecting the projection directions can also be extended to other multivariate projection-based methods.en
dc.format.extent70+42
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/12910
dc.identifier.urnURN:NBN:fi:aalto-201404181702
dc.language.isoenen
dc.locationP1fi
dc.programmeBIO - Bioinformaatioteknologiafi
dc.programme.majorLaskennallinen ja kognitiivinen biotiedefi
dc.programme.mcodeIL3003fi
dc.rights.accesslevelclosedAccess
dc.subject.keywordmetagenomeen
dc.subject.keyworddeep bedrock aquiferen
dc.subject.keywordmultivariate data analysisen
dc.subject.keywordkernel methodsen
dc.subject.keywordoptimizationen
dc.subject.keywordcorrelationen
dc.subject.keyworddimensionality reductionen
dc.subject.keywordfeature extractionen
dc.subject.keywordmetagenomifi
dc.subject.keywordsyvän peruskallion pohjavesikerrosfi
dc.subject.keywordmonimuuttuja-analyysifi
dc.subject.keywordydinfunktio-menetelmätfi
dc.subject.keywordoptimointifi
dc.subject.keywordkorrelaatiofi
dc.subject.keyworddimension redusointifi
dc.subject.keywordhahmontunnistusfi
dc.titleSyvän peruskallion bakteeriyhteisöjen karakterisointia laskennallisin menetelminfi
dc.titleComputational Analysis of Deep Bedrock Bacterial Communitiesen
dc.typeG2 Pro gradu, diplomityöen
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotDiplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.publicationmasterThesis
local.aalto.digifolderAalto_05870
local.aalto.idinssi48899
local.aalto.openaccessno
Files