Multivariate multi-way modelling of multiple high-dimensional data sources

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.authorHuopaniemi, Ilkka
dc.contributor.departmentTietojenkäsittelytieteen laitosfi
dc.contributor.departmentDepartment of Information and Computer Scienceen
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolSchool of Scienceen
dc.contributor.supervisorKaski, Samuel, Prof.
dc.date.accessioned2012-10-10T11:49:14Z
dc.date.available2012-10-10T11:49:14Z
dc.date.defence2012-10-12
dc.date.issued2012
dc.description.abstractA widely employed strategy in current biomedical research is to study samples from patients using high-throughput measurement techniques, such as transcriptomics, proteomics, and metabolomics. In contrast to the static information obtained from the DNA sequence, these techniques deliver a "dynamic fingerprint" describing the phenotypic status of the patient in the form of absolute or relative concentrations of hundreds, or even tens of thousands of molecules: mRNA, proteins, metabolites and lipids. The huge number of variables measured opens up new possibilities for biomedical research; harnessing the information contained in such 'omics' data requires advanced data analysis methods. The standard setup in biomedical research is comparing case (diseased) and control (healthy) samples and determining differentially expressed molecules that are then considered potential bio-markers for disease. In modern biomedical experiments, more complicated research questions are common. For instance, diet or drug treatments, gender and age play central roles in many case-control experiments and the measurements are often in the form of a time-series. Due to these additional covariates, the experimental setting becomes a multi-way experimental design, but few tools for proper data-analysis of high-dimensional data with such a design exist. Moreover, the task of integrating multiple data sources with different variables is nowadays often encountered in two classes of biomedical experiments: (i) Multiple omics types or samples from several tissues are measured from each patient (paired samples), (ii) Translating biomarkers between human studies and model organisms (no paired samples). These data integration tasks usually additionally involve a multi-way experimental design. In this dissertation, a novel Bayesian machine learning model for multi-way modelling of data from such multi-way, single-source or multi-source setups is presented, covering the majority of situations commonly encountered in statistical analysis of omics data coming from current biomedical research. The problem of high dimensionality is solved by assuming that the data can be described as highly correlated groups of variables. The Bayesian modelling approach involves training a single, unified, interpretable model to explain all the data. This approach can overcome the main difficulties in omics analysis: small sample-size and high dimensionality, multicollinearity of data, and the problem of multiple testing. This approach also enables rigorous uncertainty estimation, dimensionality reduction and easy interpretability of results from a complex setup involving multiple covariates and multiple data sources.en
dc.description.abstractYleinen modernissa biolääketieteellisessä tutkimuksessa käytetty menetelmä on tehdä mittauksia potilaista saaduista näytteistä transkriptomiikkaa, proteomiikkaa, metabolomiikkaa ja lipidomiikkaa käyttäen. Näillä 'omiikka'-tekniikoilla pystytään samanaikaisesti mittaamaan jopa kymmenien tuhansien molekyylien (lähetti-RNAn, proteiinien, metaboliittien, lipidien) konsentraatiot. Näiden potilaan tilaa kuvaavien muuttujien suuri määrä avaa uusia mahdollisuuksia lääketieteelle, mutta informaation löytäminen valtavasta havaintoaineistosta edellyttää edistyneitä data-analyysimenetelmiä. Tässä väitöskirjassa on tutkittu omiikka-aineistojen tilastollista analyysia, kun näytteet (potilaat) on mitattu monisuuntaisessa koeasetelmassa. Yksisuuntainen koeasetelma tarkoittaa molekyylien konsentraatioiden suuruuden vertaamista esimerkiksi terveiden ja diabetesta sairastavien potilaiden välillä. Monisuuntaisessa koeasetelmassa potilasta kuvaa kaksi (tai useampi) kovariaattia, kuten taudin lisäksi sukupuoli, ikä tai annettu lääke, ja mittaukset voivat myös muodostaa aikasarjan. Biolääketieteellisistä kokeista tulevien tietoaineistojen analyysissa joudutaan usein myös yhdistämään useasta eri lähteestä tulevia aineistoja. Mittaukset tehdään monesti usealla eri omiikkamenetelmällä tai useasta eri kudoksesta, tai samaa tautia voidaan tutkia ihmispotilaissa ja malliorganismissa. Omiikka-aineistojen analyysin suurin ongelma on se, että näytteiden määrä on usein pieni, vaikka muuttujien määrä on suuri. Tässä väitöskirjassa on kehitetty bayesilaiseen tilastotieteeseen perustuva koneoppimismalli, jolla pystytään analysoimaan yhdestä tai useasta lähteestä tulevia havaintoaineistoja, joissa näytteet on kerätty monisuuntaisessa koeasetelmassa. Menetelmä pystyy löytämään aineistosta usean kovariaatin vaikutukset sekä niiden yhteisvaikutukset ja toimii hyvin myös, kun näytteiden määrä on pieni ja muuttujien määrä suuri. Koska menetelmä on bayesilainen, tulosten epävarmuus pystytään arvioimaan luotettavasti. Menetelmän soveltuvuusalue kattaa merkittävän osan modernin biolääketieteen tutkimuksessa syntyvistä omiikka-aineistoista.fi
dc.format.extent181
dc.format.mimetypeapplication/pdf
dc.identifier.isbn978-952-60-4783-6 (electronic)
dc.identifier.isbn978-952-60-4782-9 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/5983
dc.identifier.urnURN:ISBN:978-952-60-4783-6
dc.language.isoenen
dc.opnCampbell, Colin, Dr., University of Bristol, United Kingdom
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Ilkka Huopaniemi, Tommi Suvitaival, Janne Nikkilä, Matej Orešič, and Samuel Kaski. Two-way analysis of high-dimensional collinear data. Data Mining and Knowledge Discovery, 19(2):261-276, June 2009.
dc.relation.haspart[Publication 2]: Ilkka Huopaniemi, Tommi Suvitaival, Janne Nikkilä, Matej Orešič, and Samuel Kaski. Multivariate multi-way analysis of multi-source data. Bioinformatics, 26:i391-i398, July 2010.
dc.relation.haspart[Publication 3]: Ilkka Huopaniemi, Tommi Suvitaival, Matej Orešič, and Samuel Kaski. Graphical multi-way models. In Jose Balcázar, Francesco Bonchi, Aristides Gionis, and Michèle Sebag editors, Machine Learning and Knowledge Discovery in Databases - ECML PKDD 2010, volume 6321 of Lecture Notes in Computer Science, pages 538-553. Springer-Verlag, Berlin / Heidelberg, September 2010.
dc.relation.haspart[Publication 4]: Tommi Suvitaival, Ilkka Huopaniemi, Matej Orešič, and Samuel Kaski. Cross-species translation of multi-way biomarkers. In Timo Honkela, Wlodzislaw Duch, Mark Girolami, and Samuel Kaski, editors, Artificial Neural Networks and Machine Learning - ICANN 2011, volume 6791 of Lecture Notes in Computer Science, pages 209-216. Springer Berlin / Heidelberg, June 2011.
dc.relation.haspart[Publication 5]: Laxman Yetukuri, Ilkka Huopaniemi, Artturi Koivuniemi, Marianna Maranghi, Anne Hiukka, Heli Nygren, Samuel Kaski, Marja-Riitta Taskinen, Ilpo Vattulainen, Matti Jauhiainen, and Matej Orešič. High density lipoprotein structural changes and drug response in lipidomic profiles following the long-term fenofibrate therapy in the FIELD substudy. PLoS ONE, 6(8):e23589, July 2011.
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries117/2012
dc.revPenttinen, Antti, Prof., University of Jyväskylä
dc.revRogers, Simon, Dr., University of Glasgow, United Kingdom
dc.subject.keywordBayesian methodsen
dc.subject.keyworddata integrationen
dc.subject.keywordmachine learningen
dc.subject.keywordmulti-way ANOVAen
dc.subject.keywordsmall sample-sizeen
dc.subject.keywordbayesilaiset menetelmätfi
dc.subject.keyworddatalähteiden yhdistäminenfi
dc.subject.keywordkoneoppiminenfi
dc.subject.keywordmonisuuntaiset koeasetelmatfi
dc.subject.otherComputer scienceen
dc.titleMultivariate multi-way modelling of multiple high-dimensional data sourcesen
dc.titleUsean korkeaulotteisen datalähteen analyysi monisuuntaisessa koeasetelmassafi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.digiauthask
local.aalto.digifolderAalto_65499

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
isbn9789526047836.pdf
Size:
1.66 MB
Format:
Adobe Portable Document Format