Bayesian Multi-View Factor Models for Drug Response and Brain Imaging Studies

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Science | Doctoral thesis (article-based) | Defence date: 2018-10-12
Date
2018
Major/Subject
Mcode
Degree programme
Language
en
Pages
52 + app. 116
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 178/2018
Abstract
This thesis investigates knowledge inference from measurements of multiple data sources, motivated by technologies in a wide range of domains allowing effective measurement of several related, but heterogeneous data sources. In life sciences, examples of this kind of "multi-view" data are brain imaging data of multiple subjects along with description of the experimental stimuli, as well as drug response studies including measurements regarding the expression level, copy number variation and mutation of genes in cell lines. Data analyses have been typically related to analyzing the structure of a single data source, or the effect of one data source to another. The multi-view data inspected in this thesis results in a more complex problem: besides the structure of each of the data sources, the relations between the data sources are of high interest as well.  This thesis addresses modern multi-view data analysis problems using Bayesian latent variable models. They are a natural choice for developing models in order to gain knowledge about multiple data sources and their relations; they allow for missing values in the data, incorporating prior information to the modelling problem and estimating the uncertainty present in the inference. The key contributions of this thesis include formulating a low-rank data source relation model and presenting biclustering using sparse priors, as well as a relaxed formulation of tensor factorization. All the developed models have been published as open-source software, enabling wide-spread use and further development.  The presented machine learning tools are demonstrated using drug response and brain imaging studies, for both of which predictive performance above state-of-the-art level is achieved. In the drug response studies, the models were able to accurately relate similar drugs, as well as detect known cancer genes affecting the responsiveness of cells to certain drugs. In the brain response studies the benefits of the presented methods were shown via increased accuracy in predicting brain responses, whereas the relaxed tensor decomposition allowed for a novel way of utilizing measurements for multiple subjects. Finally, the advantage of using a low-dimensional latent space is illustrated in a genome-wide association study in an especially challenging domain: when there exist measurements for only two hundred subjects, yet there exist some thousands of features regarding the subjects, with the study discovering a relevant gene associated with components of brain activity.

Tässä työssä tutkitaan tiedon hankkimista monilähdeaineistoista. Nykyään monilla aloilla on mahdollista kerätä tehokkaasti mittauksia useista toisiinsa liittyvistä mutta heterogeenisistä datalähteistä. Biotieteissä esimerkkejä tällaisista monilähdeaineistoista ovat usean koehenkilön aivokuvantamismittaukset yhdistettynä kokeessa käytetyn ärsykkeen kuvaukseen sekä lääkevastekokeet, jotka sisältävät mittauksia solulinjojen geenien ilmentymisistä, kopioiden määrästä ja mutaatioista. Data-analyysiongelmissa tutkimuskohde on tyypillisesti ollut joko yksittäisen datalähteen rakenne tai yhden datalähteen vaikutus toiseen. Tässä työssä tarkasteltuihin monilähdeaineistoihin liittyy haastavampi ongelma, sillä jokaisen lähteen sisäisen rakenteen lisäksi halutaan tarkastella myös lähteiden välisiä suhteita.  Tässä työssä monilähdedata-analyysiongelmia ratkotaan bayesiläisillä piilomuuttujamalleilla. Ne soveltuvat hyvin mallien kehittämiseen useille datalähteille ja niiden välisille suhteille; ne sallivat puuttuvat arvot aineistossa sekä mahdollistavat prioritiedon huomioon ottamisen mallintamisessa ja epävarmuuden arvioinnin mallin päättelyssä. Tärkeimpinä kontribuutioina tässä työssä esitellään matalaulotteinen suhdemalli datalähteille, demonstroidaan biklusterointia harvoilla prioreilla sekä muotoillaan relaksoitu tensorihajotelma. Kaikki kehitetyt mallit on julkaistu avoimesti, jotta niitä voidaan edelleenkehittää ja käyttää laajasti.  Esiteltyjä koneoppimismalleja sovellettiin lääkevaste- ja aivokuvantamiskokeisiin. Molemmissa sovelluksissa ylitettiin aiempi huipputaso ennustustarkkuuksissa. Lääkevastekokeissa malleilla onnistuttiin assosioimaan samankaltaisia lääkkeitä ja havaittiin tunnettuja syöpägeenejä, jotka vaikuttivat solujen herkkyyteen tietyille lääkkeille. Aivokuvantamiskokeissa esitelty relaksoitu tensorihajotelma hyödynsi useiden koehenkilöiden mittauksia uudenlaisella tavalla. Lisäksi tässä työssä osoitettiin matalaulotteisen piiloavaruuden hyödyllisyys genominlaajuisessa assosiaatiotutkimuksessa erityisen haastavassa koeasetelmassa, jossa mittauksia on vain kahdestasadasta henkilöstä ja fenotyyppi koostuu tuhansista piirteistä. Sen avulla löydettiin merkityksellinen geeni, joka selittää aivoaktiivisuuden osatekijöitä.
Description
Supervising professor
Kaski, Samuel, Prof., Aalto University, Department of Computer Science, Finland
Keywords
bayesian modelling, bioinformatics, brain imaging, factor analysis, multi-view modelling, tensor factorization, aivokuvantaminen, bayesiläinen mallintaminen, bioinformatiikka, faktorianalyysi, monilähdemallintaminen, tensorihajotelmat
Other note
Parts
  • [Publication 1]: Arto Klami, Seppo Virtanen, Eemeli Leppäaho, and Samuel Kaski. Group factor analysis. IEEE Transactions on Neural Networks and Learning Systems, 26(9):2136–2147, 2015.
    DOI: 10.1109/TNNLS.2014.2376974 View at publisher
  • [Publication 2]: Suleiman A. Khan, Eemeli Leppäaho and Samuel Kaski. Bayesian multi-tensor factorization. Machine Learning, 105(2):233–253, 2016.
    DOI: 10.1007/s10994-016-5563-y View at publisher
  • [Publication 3]: Kerstin Bunte, Eemeli Leppäaho, Inka Saarinen and Samuel Kaski. Sparse group factor analysis for biclustering of multiple data sources. Bioinformatics, 32(16):2457–2463, 2016.
    DOI: 10.1093/bioinformatics/btw207 View at publisher
  • [Publication 4]: Eemeli Leppäaho, Muhammad Ammad-ud-din, and Samuel Kaski. GFA: exploratory analysis of multiple data sources with group factor analysis. Journal of Machine Learning Research, 18(39):1–5, 2017.
  • [Publication 5]: Xiangju Qin, Paul Blomstedt, Eemeli Leppäaho, Pekka Parviainen and Samuel Kaski. Distributed Bayesian matrix factorization with limited communication. Submitted to a journal, 27 pages, 2018.
  • [Publication 6]: Eemeli Leppäaho, Hanna Renvall, Elina Salmela, Juha Kere, Riitta Salmelin, and Samuel Kaski. Discovering heritable modes of MEG spectral power. Submitted to a journal, 30 pages, 2018.
Citation