Bayesian Multi-View Factor Models for Drug Response and Brain Imaging Studies

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.author Leppäaho, Eemeli
dc.date.accessioned 2018-10-23T09:03:22Z
dc.date.available 2018-10-23T09:03:22Z
dc.date.issued 2018
dc.identifier.isbn 978-952-60-8185-4 (electronic)
dc.identifier.isbn 978-952-60-8184-7 (printed)
dc.identifier.issn 1799-4942 (electronic)
dc.identifier.issn 1799-4934 (printed)
dc.identifier.issn 1799-4934 (ISSN-L)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/34430
dc.description.abstract This thesis investigates knowledge inference from measurements of multiple data sources, motivated by technologies in a wide range of domains allowing effective measurement of several related, but heterogeneous data sources. In life sciences, examples of this kind of "multi-view" data are brain imaging data of multiple subjects along with description of the experimental stimuli, as well as drug response studies including measurements regarding the expression level, copy number variation and mutation of genes in cell lines. Data analyses have been typically related to analyzing the structure of a single data source, or the effect of one data source to another. The multi-view data inspected in this thesis results in a more complex problem: besides the structure of each of the data sources, the relations between the data sources are of high interest as well.  This thesis addresses modern multi-view data analysis problems using Bayesian latent variable models. They are a natural choice for developing models in order to gain knowledge about multiple data sources and their relations; they allow for missing values in the data, incorporating prior information to the modelling problem and estimating the uncertainty present in the inference. The key contributions of this thesis include formulating a low-rank data source relation model and presenting biclustering using sparse priors, as well as a relaxed formulation of tensor factorization. All the developed models have been published as open-source software, enabling wide-spread use and further development.  The presented machine learning tools are demonstrated using drug response and brain imaging studies, for both of which predictive performance above state-of-the-art level is achieved. In the drug response studies, the models were able to accurately relate similar drugs, as well as detect known cancer genes affecting the responsiveness of cells to certain drugs. In the brain response studies the benefits of the presented methods were shown via increased accuracy in predicting brain responses, whereas the relaxed tensor decomposition allowed for a novel way of utilizing measurements for multiple subjects. Finally, the advantage of using a low-dimensional latent space is illustrated in a genome-wide association study in an especially challenging domain: when there exist measurements for only two hundred subjects, yet there exist some thousands of features regarding the subjects, with the study discovering a relevant gene associated with components of brain activity. en
dc.description.abstract Tässä työssä tutkitaan tiedon hankkimista monilähdeaineistoista. Nykyään monilla aloilla on mahdollista kerätä tehokkaasti mittauksia useista toisiinsa liittyvistä mutta heterogeenisistä datalähteistä. Biotieteissä esimerkkejä tällaisista monilähdeaineistoista ovat usean koehenkilön aivokuvantamismittaukset yhdistettynä kokeessa käytetyn ärsykkeen kuvaukseen sekä lääkevastekokeet, jotka sisältävät mittauksia solulinjojen geenien ilmentymisistä, kopioiden määrästä ja mutaatioista. Data-analyysiongelmissa tutkimuskohde on tyypillisesti ollut joko yksittäisen datalähteen rakenne tai yhden datalähteen vaikutus toiseen. Tässä työssä tarkasteltuihin monilähdeaineistoihin liittyy haastavampi ongelma, sillä jokaisen lähteen sisäisen rakenteen lisäksi halutaan tarkastella myös lähteiden välisiä suhteita.  Tässä työssä monilähdedata-analyysiongelmia ratkotaan bayesiläisillä piilomuuttujamalleilla. Ne soveltuvat hyvin mallien kehittämiseen useille datalähteille ja niiden välisille suhteille; ne sallivat puuttuvat arvot aineistossa sekä mahdollistavat prioritiedon huomioon ottamisen mallintamisessa ja epävarmuuden arvioinnin mallin päättelyssä. Tärkeimpinä kontribuutioina tässä työssä esitellään matalaulotteinen suhdemalli datalähteille, demonstroidaan biklusterointia harvoilla prioreilla sekä muotoillaan relaksoitu tensorihajotelma. Kaikki kehitetyt mallit on julkaistu avoimesti, jotta niitä voidaan edelleenkehittää ja käyttää laajasti.  Esiteltyjä koneoppimismalleja sovellettiin lääkevaste- ja aivokuvantamiskokeisiin. Molemmissa sovelluksissa ylitettiin aiempi huipputaso ennustustarkkuuksissa. Lääkevastekokeissa malleilla onnistuttiin assosioimaan samankaltaisia lääkkeitä ja havaittiin tunnettuja syöpägeenejä, jotka vaikuttivat solujen herkkyyteen tietyille lääkkeille. Aivokuvantamiskokeissa esitelty relaksoitu tensorihajotelma hyödynsi useiden koehenkilöiden mittauksia uudenlaisella tavalla. Lisäksi tässä työssä osoitettiin matalaulotteisen piiloavaruuden hyödyllisyys genominlaajuisessa assosiaatiotutkimuksessa erityisen haastavassa koeasetelmassa, jossa mittauksia on vain kahdestasadasta henkilöstä ja fenotyyppi koostuu tuhansista piirteistä. Sen avulla löydettiin merkityksellinen geeni, joka selittää aivoaktiivisuuden osatekijöitä. fi
dc.format.extent 52 + app. 116
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.publisher Aalto University en
dc.publisher Aalto-yliopisto fi
dc.relation.ispartofseries Aalto University publication series DOCTORAL DISSERTATIONS en
dc.relation.ispartofseries 178/2018
dc.relation.haspart [Publication 1]: Arto Klami, Seppo Virtanen, Eemeli Leppäaho, and Samuel Kaski. Group factor analysis. IEEE Transactions on Neural Networks and Learning Systems, 26(9):2136–2147, 2015. DOI: 10.1109/TNNLS.2014.2376974
dc.relation.haspart [Publication 2]: Suleiman A. Khan, Eemeli Leppäaho and Samuel Kaski. Bayesian multi-tensor factorization. Machine Learning, 105(2):233–253, 2016. DOI: 10.1007/s10994-016-5563-y
dc.relation.haspart [Publication 3]: Kerstin Bunte, Eemeli Leppäaho, Inka Saarinen and Samuel Kaski. Sparse group factor analysis for biclustering of multiple data sources. Bioinformatics, 32(16):2457–2463, 2016. DOI: 10.1093/bioinformatics/btw207
dc.relation.haspart [Publication 4]: Eemeli Leppäaho, Muhammad Ammad-ud-din, and Samuel Kaski. GFA: exploratory analysis of multiple data sources with group factor analysis. Journal of Machine Learning Research, 18(39):1–5, 2017.
dc.relation.haspart [Publication 5]: Xiangju Qin, Paul Blomstedt, Eemeli Leppäaho, Pekka Parviainen and Samuel Kaski. Distributed Bayesian matrix factorization with limited communication. Submitted to a journal, 27 pages, 2018.
dc.relation.haspart [Publication 6]: Eemeli Leppäaho, Hanna Renvall, Elina Salmela, Juha Kere, Riitta Salmelin, and Samuel Kaski. Discovering heritable modes of MEG spectral power. Submitted to a journal, 30 pages, 2018.
dc.subject.other Biotechnology en
dc.subject.other Computer science en
dc.subject.other Medical sciences en
dc.title Bayesian Multi-View Factor Models for Drug Response and Brain Imaging Studies en
dc.title Bayesiläisiä monilähdemalleja lääkevaste- ja aivokuvantamiskokeisiin fi
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Perustieteiden korkeakoulu fi
dc.contributor.school School of Science en
dc.contributor.department Tietotekniikan laitos fi
dc.contributor.department Department of Computer Science en
dc.subject.keyword bayesian modelling en
dc.subject.keyword bioinformatics en
dc.subject.keyword brain imaging en
dc.subject.keyword factor analysis en
dc.subject.keyword multi-view modelling en
dc.subject.keyword tensor factorization en
dc.subject.keyword aivokuvantaminen fi
dc.subject.keyword bayesiläinen mallintaminen fi
dc.subject.keyword bioinformatiikka fi
dc.subject.keyword faktorianalyysi fi
dc.subject.keyword monilähdemallintaminen fi
dc.subject.keyword tensorihajotelmat fi
dc.identifier.urn URN:ISBN:978-952-60-8185-4
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Kaski, Samuel, Prof., Aalto University, Department of Computer Science, Finland
dc.opn Rish, Irina, Dr., T. J. Watson Research Center, USA
dc.rev Tohka, Jussi, Assoc Prof., University of Eastern Finland, Finland
dc.rev Mørup, Morten, Assoc. Prof., Technical University of Denmark, Denmark
dc.date.defence 2018-10-12
local.aalto.acrisexportstatus checked 2019-02-21_1312


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account