Korkeaulotteisen ja kollineaarisen metabolomiikkadatan bayesilainen kaksisuuntainen analyysi

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Elektroniikan, tietoliikenteen ja automaation tiedekunta | Master's thesis
Date
2009
Department
Major/Subject
Informaatiotekniikka
Mcode
T-61
Degree programme
Language
en
Pages
7 + 59
Series
Abstract
Kaksisuuntainen tehtävänasettelu on yleinen bioinformatiikan alalla. Tässä diplomityössä esitellään uusi bayesilaisen mallinnuksen menetelmä kaksisuuntaisen havaintoaineiston analysointiin. Menetelmä toimii myös vähän näytteitä sisältävillä korkeaulotteisilla havaintoaineistoilla. Havaintoaineiston oletetaan jakautuvan populaatioihin kovariaattien mukaan, jotka tyypillisessä biologisessa kokeessa ovat yksilön terveydentila, sukupuoli, lääketieteellinen hoito sekä yksilön ikä. Esiteltävä menetelmä on suunniteltu arvioimaan näiden kovariaattien vaikutus havaintoaineiston kontrolliryhmän perustasoon verrattuna. Menetelmä perustuu olettamukseen siitä, että havaintoaineiston piirteet muodostavat ryhmiä, joiden sisällä piirteet ovat voimakkaasti kollineaarisia. Tämä olettamus mahdollistaa piilomuuttajamalliin perustuvan dimensionaalisuuden pudotuksen, jonka ansiosta menetelmä on toimiva myös pienen näytemäärän havaintoaineistoille. Menetelmä käsittelee havaintoaineistoa täysin bayesilaisittain, Gibbsin otannan avulla. Bayesilainen lähestymistapa tuottaa arvion sekä mallin ja havaintoaineiston yhteisjakaumalle että mallin jokaisen parametrin marginaalijakaumalle. Tämä mahdollistaa tulosten epävarmuuden arvioinnin sekä vertailun toisiin malleihin. Uuden menetelmän toimivuutta esitellään metabolomiikan alalta olevan havaintoaineiston avulla. Aineisto sisältää lipidiprofiileja, jotka on mitattu terveistä lapsista ja lapsista, jotka myöhemmin sairastuvat tyypin 1 diabetekseen. Kahdessa erillisessä analyysissä tutkitaan sairauden ja sukupuolen sekä sairauden ja iän vaikutusta lipidiprofiileihin.

Two-way experimental designs are common in bioinformatics. In this thesis, a new Bayesian model is proposed for the analysis of two-way data. The method also works for small sample-size data with a high number of features. The data set is assumed to be divided into populations according to covariates, which in the case of a typical biological experiment are the health status, the gender, the medical treatment and the age of the individual. The proposed method is designed to estimate the effect of these covariates compared to the ground level of a control group of the data. The method is based on the assumption that features of the data form groups that are highly collinear. This allows the use of a latent variable-based dimensionality reduction, which makes inference possible also for small sample-size data sets. The method treats the data in a completely Bayesian way, which produces an estimate for the joint distribution of the model and the data, and marginal posterior distributions of all model parameters. This allows one to evaluate the signicance and uncertainty of the results and to compare it to other models. Inference is carried out with Gibbs sampling. The performance of the new method is demonstrated with a metabolomic data set by comparing lipidomic profiles from children who remain healthy to those who will later develop type 1 diabetes. In two separate studies, the effect of the disease and gender, and the effect of the disease and time, are estimated.
Description
Supervisor
Kaski, Samuel
Thesis advisor
Huopaniemi, Ilkka
Keywords
ANOVA, Bayesian modelling, factor analysis, hierarchical model, metabolomics, small sample-size, varianssianalyysi, bayesilainen mallitus, faktorianalyysi, hierarkinen malli, metabolomiikka, pieni näytemäärä
Other note
Citation