Transfer Learning with Group Factor Analysis

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorKlami, Arto
dc.contributor.authorLeppäaho, Eemeli
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.supervisorKaski, Samuel
dc.date.accessioned2015-02-25T12:11:18Z
dc.date.available2015-02-25T12:11:18Z
dc.date.issued2013
dc.description.abstractModern measuring techniques allow us to get more and more data in less time and cheaper price. When analyzing data, one sample might be the gene expression of a cell or the activity of a human brain at a certain time, consisting of tens of thousands of features. Often we have much fewer samples than features, and simple methods will overfit the data. Factor models are designed to model this kind of high-dimensional data via a lower dimensional factor space. Factor analysis is the simplest factor model: it reconstructs each feature in the data as a weighted sum of the hidden factors (components). In this thesis I examine group factor analysis (GFA), which is an extension of factor analysis for multiple data sets. High-dimensional data can often be naturally divided to different groups (views), which GFA uses as prior information by inferring the component activities for views instead of single features. This property combined with an automatic system for the component activity determination results in a powerful factor model. In this thesis, GFA is extended to explicitly model hidden relations between different data views. This is done by generating their component activity matrix in two alternative ways: as samples of a multivariate normal distribution and as a product of two low-rank matrices. Both the extensions are solved via variational Bayesian inference, and are shown to model data with accuracy comparable to GFA. For data with many views low-rank GFA is the most accurate model. Additionally the problem of small number of samples is dealt with two transfer learning setups: one being able to take advantage of background data with samples or features shared with target data, and the other introducing a novel transfer learning setup. It is shown, using both artificial and real data, that both of these setups allow us to form a better model when suitable background data is available. The real data consists of drug response profiles measured on cell lines using two different microarray platforms.en
dc.description.abstractModernien mittaustekniikoiden avulla saadaan nykyään entistä enemmän aineistoa tutkittavaksi lyhyemmässä ajassa ja halvemmalla. Kun tutkimuksen kohteena ovat esimerkiksi solun geenien ilmentymisarvot tai ihmisaivojen toiminta, yksi näyte voi koostua kymmenistä tuhansista muuttujista. Usein näytteitä on paljon vähemmän kuin muuttujia, jolloin yksinkertaiset menetelmät ylisovittuvat aineistoon. Faktorimallit on suunniteltu mallintamaan tällaista korkeaulotteista dataa matalaulotteisemman faktoriavaruuden avulla. Faktorianalyysi on näistä malleista yksinkertaisin: se rekonstruoi jokaisen aineiston muuttujan latenttien faktorien (komponenttien) painotettuna summana. Tässä diplomityössä sovelletaan ja edelleen kehitetään ryhmäfaktorianalyysiä (GFA), joka on faktorianalyysin laajennus useille aineistojoukoille. Korkeaulotteinen data voidaan usein jakaa ryhmiin (näkymiin), jotka GFA ottaa huomioon mallintamalla komponenttiaktiivisuudet ryhmille yksittäisten muuttujien sijaan. Mallissa on myös mukana komponenttien relevanssin määrittävä osa. Nämä seikat tekevät GFA:sta käytännöllisen faktorimallin. Tässä työssä laajennetaan ryhmäfaktorianalyysiä mallintamaan aineiston eri näkymien suhteita eksplisiittisesti. Tämä tehdään mallintamalla näkymien komponenttiaktiivisuudet kahdella vaihtoehtoisella tavalla: moniulotteisen normaalijakauman näytteinä sekä kahden matalan rangin matriisin tulona. Molemmat laajennukset ratkaistaan variationaalisen Bayes-päättelyn avulla, ja niiden tarkkuus aineiston mallintamisessa vastaa GFA:n tarkkuutta. Aineistossa, jossa on useita näkymiä, matalan rangin GFA on tarkin malli. Pienen näytemäärän ongelmaan puututaan lisäksi kahdella siirto-oppimismenetelmällä. Toisessa hyödynnetään taustadataa, jossa on kohdedatan kanssa jaettuja näytteitä tai muuttujia. Toisessa lähestymistavassa on menetelmänä syvemmän tason siirto-oppiminen. Työssä osoitetaan sekä keinotekoisella että oikealla aineistolla, että molemmat menetelmät parantavat lopullista mallia, kunhan sopivaa taustadataa on saatavilla. Oikea aineisto koostuu solulinjoille mikrosiruilla tehdyistä lääkevastemittauksista.fi
dc.format.extentviii + 53 s.
dc.format.mimetypeapplication/pdf
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/15248
dc.identifier.urnURN:NBN:fi:aalto-201502261946
dc.language.isoenen
dc.programme.majorInformaatiotekniikkafi
dc.programme.mcodeT-61
dc.rights.accesslevelopenAccess
dc.subject.keywordbayesiläinen data-analyysifi
dc.subject.keywordfaktorimallitfi
dc.subject.keywordsiirto-oppiminenfi
dc.subject.keywordvariationaalinen Bayes-päättelyfi
dc.subject.keywordBayesian data analysisen
dc.subject.keywordfactor modelsen
dc.subject.keywordtransfer learningen
dc.subject.keywordvariational inferenceen
dc.titleTransfer Learning with Group Factor Analysisen
dc.titleSiirto-oppimista ryhmäfaktorianalyysillafi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.dcmitypetexten
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotDiplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.publicationmasterThesis
local.aalto.digifolderAalto_92479
local.aalto.idinssi46003
local.aalto.openaccessyes
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_leppäaho_eemeli_2013.pdf
Size:
833.94 KB
Format:
Adobe Portable Document Format