Multivariate multi-way modelling of multiple high-dimensional data sources

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Science | Doctoral thesis (article-based) | Defence date: 2012-10-12
Checking the digitized thesis and permission for publishing
Instructions for the author
Date
2012
Major/Subject
Mcode
Degree programme
Language
en
Pages
181
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 117/2012
Abstract
A widely employed strategy in current biomedical research is to study samples from patients using high-throughput measurement techniques, such as transcriptomics, proteomics, and metabolomics. In contrast to the static information obtained from the DNA sequence, these techniques deliver a "dynamic fingerprint" describing the phenotypic status of the patient in the form of absolute or relative concentrations of hundreds, or even tens of thousands of molecules: mRNA, proteins, metabolites and lipids. The huge number of variables measured opens up new possibilities for biomedical research; harnessing the information contained in such 'omics' data requires advanced data analysis methods. The standard setup in biomedical research is comparing case (diseased) and control (healthy) samples and determining differentially expressed molecules that are then considered potential bio-markers for disease. In modern biomedical experiments, more complicated research questions are common. For instance, diet or drug treatments, gender and age play central roles in many case-control experiments and the measurements are often in the form of a time-series. Due to these additional covariates, the experimental setting becomes a multi-way experimental design, but few tools for proper data-analysis of high-dimensional data with such a design exist. Moreover, the task of integrating multiple data sources with different variables is nowadays often encountered in two classes of biomedical experiments: (i) Multiple omics types or samples from several tissues are measured from each patient (paired samples), (ii) Translating biomarkers between human studies and model organisms (no paired samples). These data integration tasks usually additionally involve a multi-way experimental design. In this dissertation, a novel Bayesian machine learning model for multi-way modelling of data from such multi-way, single-source or multi-source setups is presented, covering the majority of situations commonly encountered in statistical analysis of omics data coming from current biomedical research. The problem of high dimensionality is solved by assuming that the data can be described as highly correlated groups of variables. The Bayesian modelling approach involves training a single, unified, interpretable model to explain all the data. This approach can overcome the main difficulties in omics analysis: small sample-size and high dimensionality, multicollinearity of data, and the problem of multiple testing. This approach also enables rigorous uncertainty estimation, dimensionality reduction and easy interpretability of results from a complex setup involving multiple covariates and multiple data sources.

Yleinen modernissa biolääketieteellisessä tutkimuksessa käytetty menetelmä on tehdä mittauksia potilaista saaduista näytteistä transkriptomiikkaa, proteomiikkaa, metabolomiikkaa ja lipidomiikkaa käyttäen. Näillä 'omiikka'-tekniikoilla pystytään samanaikaisesti mittaamaan jopa kymmenien tuhansien molekyylien (lähetti-RNAn, proteiinien, metaboliittien, lipidien) konsentraatiot. Näiden potilaan tilaa kuvaavien muuttujien suuri määrä avaa uusia mahdollisuuksia lääketieteelle, mutta informaation löytäminen valtavasta havaintoaineistosta edellyttää edistyneitä data-analyysimenetelmiä. Tässä väitöskirjassa on tutkittu omiikka-aineistojen tilastollista analyysia, kun näytteet (potilaat) on mitattu monisuuntaisessa koeasetelmassa. Yksisuuntainen koeasetelma tarkoittaa molekyylien konsentraatioiden suuruuden vertaamista esimerkiksi terveiden ja diabetesta sairastavien potilaiden välillä. Monisuuntaisessa koeasetelmassa potilasta kuvaa kaksi (tai useampi) kovariaattia, kuten taudin lisäksi sukupuoli, ikä tai annettu lääke, ja mittaukset voivat myös muodostaa aikasarjan. Biolääketieteellisistä kokeista tulevien tietoaineistojen analyysissa joudutaan usein myös yhdistämään useasta eri lähteestä tulevia aineistoja. Mittaukset tehdään monesti usealla eri omiikkamenetelmällä tai useasta eri kudoksesta, tai samaa tautia voidaan tutkia ihmispotilaissa ja malliorganismissa. Omiikka-aineistojen analyysin suurin ongelma on se, että näytteiden määrä on usein pieni, vaikka muuttujien määrä on suuri. Tässä väitöskirjassa on kehitetty bayesilaiseen tilastotieteeseen perustuva koneoppimismalli, jolla pystytään analysoimaan yhdestä tai useasta lähteestä tulevia havaintoaineistoja, joissa näytteet on kerätty monisuuntaisessa koeasetelmassa. Menetelmä pystyy löytämään aineistosta usean kovariaatin vaikutukset sekä niiden yhteisvaikutukset ja toimii hyvin myös, kun näytteiden määrä on pieni ja muuttujien määrä suuri. Koska menetelmä on bayesilainen, tulosten epävarmuus pystytään arvioimaan luotettavasti. Menetelmän soveltuvuusalue kattaa merkittävän osan modernin biolääketieteen tutkimuksessa syntyvistä omiikka-aineistoista.
Description
Supervising professor
Kaski, Samuel, Prof.
Keywords
Bayesian methods, data integration, machine learning, multi-way ANOVA, small sample-size, bayesilaiset menetelmät, datalähteiden yhdistäminen, koneoppiminen, monisuuntaiset koeasetelmat
Other note
Parts
  • [Publication 1]: Ilkka Huopaniemi, Tommi Suvitaival, Janne Nikkilä, Matej Orešič, and Samuel Kaski. Two-way analysis of high-dimensional collinear data. Data Mining and Knowledge Discovery, 19(2):261-276, June 2009.
  • [Publication 2]: Ilkka Huopaniemi, Tommi Suvitaival, Janne Nikkilä, Matej Orešič, and Samuel Kaski. Multivariate multi-way analysis of multi-source data. Bioinformatics, 26:i391-i398, July 2010.
  • [Publication 3]: Ilkka Huopaniemi, Tommi Suvitaival, Matej Orešič, and Samuel Kaski. Graphical multi-way models. In Jose Balcázar, Francesco Bonchi, Aristides Gionis, and Michèle Sebag editors, Machine Learning and Knowledge Discovery in Databases - ECML PKDD 2010, volume 6321 of Lecture Notes in Computer Science, pages 538-553. Springer-Verlag, Berlin / Heidelberg, September 2010.
  • [Publication 4]: Tommi Suvitaival, Ilkka Huopaniemi, Matej Orešič, and Samuel Kaski. Cross-species translation of multi-way biomarkers. In Timo Honkela, Wlodzislaw Duch, Mark Girolami, and Samuel Kaski, editors, Artificial Neural Networks and Machine Learning - ICANN 2011, volume 6791 of Lecture Notes in Computer Science, pages 209-216. Springer Berlin / Heidelberg, June 2011.
  • [Publication 5]: Laxman Yetukuri, Ilkka Huopaniemi, Artturi Koivuniemi, Marianna Maranghi, Anne Hiukka, Heli Nygren, Samuel Kaski, Marja-Riitta Taskinen, Ilpo Vattulainen, Matti Jauhiainen, and Matej Orešič. High density lipoprotein structural changes and drug response in lipidomic profiles following the long-term fenofibrate therapy in the FIELD substudy. PLoS ONE, 6(8):e23589, July 2011.
Citation