Multivariate multi-way modelling of multiple high-dimensional data sources

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.author Huopaniemi, Ilkka
dc.date.accessioned 2012-10-10T11:49:14Z
dc.date.available 2012-10-10T11:49:14Z
dc.date.issued 2012
dc.identifier.isbn 978-952-60-4783-6 (electronic)
dc.identifier.isbn 978-952-60-4782-9 (printed)
dc.identifier.issn 1799-4942 (electronic)
dc.identifier.issn 1799-4934 (printed)
dc.identifier.issn 1799-4934 (ISSN-L)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/5983
dc.description.abstract A widely employed strategy in current biomedical research is to study samples from patients using high-throughput measurement techniques, such as transcriptomics, proteomics, and metabolomics. In contrast to the static information obtained from the DNA sequence, these techniques deliver a "dynamic fingerprint" describing the phenotypic status of the patient in the form of absolute or relative concentrations of hundreds, or even tens of thousands of molecules: mRNA, proteins, metabolites and lipids. The huge number of variables measured opens up new possibilities for biomedical research; harnessing the information contained in such 'omics' data requires advanced data analysis methods. The standard setup in biomedical research is comparing case (diseased) and control (healthy) samples and determining differentially expressed molecules that are then considered potential bio-markers for disease. In modern biomedical experiments, more complicated research questions are common. For instance, diet or drug treatments, gender and age play central roles in many case-control experiments and the measurements are often in the form of a time-series. Due to these additional covariates, the experimental setting becomes a multi-way experimental design, but few tools for proper data-analysis of high-dimensional data with such a design exist. Moreover, the task of integrating multiple data sources with different variables is nowadays often encountered in two classes of biomedical experiments: (i) Multiple omics types or samples from several tissues are measured from each patient (paired samples), (ii) Translating biomarkers between human studies and model organisms (no paired samples). These data integration tasks usually additionally involve a multi-way experimental design. In this dissertation, a novel Bayesian machine learning model for multi-way modelling of data from such multi-way, single-source or multi-source setups is presented, covering the majority of situations commonly encountered in statistical analysis of omics data coming from current biomedical research. The problem of high dimensionality is solved by assuming that the data can be described as highly correlated groups of variables. The Bayesian modelling approach involves training a single, unified, interpretable model to explain all the data. This approach can overcome the main difficulties in omics analysis: small sample-size and high dimensionality, multicollinearity of data, and the problem of multiple testing. This approach also enables rigorous uncertainty estimation, dimensionality reduction and easy interpretability of results from a complex setup involving multiple covariates and multiple data sources. en
dc.description.abstract Yleinen modernissa biolääketieteellisessä tutkimuksessa käytetty menetelmä on tehdä mittauksia potilaista saaduista näytteistä transkriptomiikkaa, proteomiikkaa, metabolomiikkaa ja lipidomiikkaa käyttäen. Näillä 'omiikka'-tekniikoilla pystytään samanaikaisesti mittaamaan jopa kymmenien tuhansien molekyylien (lähetti-RNAn, proteiinien, metaboliittien, lipidien) konsentraatiot. Näiden potilaan tilaa kuvaavien muuttujien suuri määrä avaa uusia mahdollisuuksia lääketieteelle, mutta informaation löytäminen valtavasta havaintoaineistosta edellyttää edistyneitä data-analyysimenetelmiä. Tässä väitöskirjassa on tutkittu omiikka-aineistojen tilastollista analyysia, kun näytteet (potilaat) on mitattu monisuuntaisessa koeasetelmassa. Yksisuuntainen koeasetelma tarkoittaa molekyylien konsentraatioiden suuruuden vertaamista esimerkiksi terveiden ja diabetesta sairastavien potilaiden välillä. Monisuuntaisessa koeasetelmassa potilasta kuvaa kaksi (tai useampi) kovariaattia, kuten taudin lisäksi sukupuoli, ikä tai annettu lääke, ja mittaukset voivat myös muodostaa aikasarjan. Biolääketieteellisistä kokeista tulevien tietoaineistojen analyysissa joudutaan usein myös yhdistämään useasta eri lähteestä tulevia aineistoja. Mittaukset tehdään monesti usealla eri omiikkamenetelmällä tai useasta eri kudoksesta, tai samaa tautia voidaan tutkia ihmispotilaissa ja malliorganismissa. Omiikka-aineistojen analyysin suurin ongelma on se, että näytteiden määrä on usein pieni, vaikka muuttujien määrä on suuri. Tässä väitöskirjassa on kehitetty bayesilaiseen tilastotieteeseen perustuva koneoppimismalli, jolla pystytään analysoimaan yhdestä tai useasta lähteestä tulevia havaintoaineistoja, joissa näytteet on kerätty monisuuntaisessa koeasetelmassa. Menetelmä pystyy löytämään aineistosta usean kovariaatin vaikutukset sekä niiden yhteisvaikutukset ja toimii hyvin myös, kun näytteiden määrä on pieni ja muuttujien määrä suuri. Koska menetelmä on bayesilainen, tulosten epävarmuus pystytään arvioimaan luotettavasti. Menetelmän soveltuvuusalue kattaa merkittävän osan modernin biolääketieteen tutkimuksessa syntyvistä omiikka-aineistoista. fi
dc.format.extent 181
dc.format.mimetype application/pdf
dc.language.iso en en
dc.publisher Aalto University en
dc.publisher Aalto-yliopisto fi
dc.relation.ispartofseries Aalto University publication series DOCTORAL DISSERTATIONS en
dc.relation.ispartofseries 117/2012
dc.relation.haspart [Publication 1]: Ilkka Huopaniemi, Tommi Suvitaival, Janne Nikkilä, Matej Orešič, and Samuel Kaski. Two-way analysis of high-dimensional collinear data. Data Mining and Knowledge Discovery, 19(2):261-276, June 2009.
dc.relation.haspart [Publication 2]: Ilkka Huopaniemi, Tommi Suvitaival, Janne Nikkilä, Matej Orešič, and Samuel Kaski. Multivariate multi-way analysis of multi-source data. Bioinformatics, 26:i391-i398, July 2010.
dc.relation.haspart [Publication 3]: Ilkka Huopaniemi, Tommi Suvitaival, Matej Orešič, and Samuel Kaski. Graphical multi-way models. In Jose Balcázar, Francesco Bonchi, Aristides Gionis, and Michèle Sebag editors, Machine Learning and Knowledge Discovery in Databases - ECML PKDD 2010, volume 6321 of Lecture Notes in Computer Science, pages 538-553. Springer-Verlag, Berlin / Heidelberg, September 2010.
dc.relation.haspart [Publication 4]: Tommi Suvitaival, Ilkka Huopaniemi, Matej Orešič, and Samuel Kaski. Cross-species translation of multi-way biomarkers. In Timo Honkela, Wlodzislaw Duch, Mark Girolami, and Samuel Kaski, editors, Artificial Neural Networks and Machine Learning - ICANN 2011, volume 6791 of Lecture Notes in Computer Science, pages 209-216. Springer Berlin / Heidelberg, June 2011.
dc.relation.haspart [Publication 5]: Laxman Yetukuri, Ilkka Huopaniemi, Artturi Koivuniemi, Marianna Maranghi, Anne Hiukka, Heli Nygren, Samuel Kaski, Marja-Riitta Taskinen, Ilpo Vattulainen, Matti Jauhiainen, and Matej Orešič. High density lipoprotein structural changes and drug response in lipidomic profiles following the long-term fenofibrate therapy in the FIELD substudy. PLoS ONE, 6(8):e23589, July 2011.
dc.subject.other Computer science en
dc.title Multivariate multi-way modelling of multiple high-dimensional data sources en
dc.title Usean korkeaulotteisen datalähteen analyysi monisuuntaisessa koeasetelmassa fi
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Perustieteiden korkeakoulu fi
dc.contributor.school School of Science en
dc.contributor.department Tietojenkäsittelytieteen laitos fi
dc.contributor.department Department of Information and Computer Science en
dc.subject.keyword Bayesian methods en
dc.subject.keyword data integration en
dc.subject.keyword machine learning en
dc.subject.keyword multi-way ANOVA en
dc.subject.keyword small sample-size en
dc.subject.keyword bayesilaiset menetelmät fi
dc.subject.keyword datalähteiden yhdistäminen fi
dc.subject.keyword koneoppiminen fi
dc.subject.keyword monisuuntaiset koeasetelmat fi
dc.identifier.urn URN:ISBN:978-952-60-4783-6
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Kaski, Samuel, Prof.
dc.opn Campbell, Colin, Dr., University of Bristol, United Kingdom
dc.rev Penttinen, Antti, Prof., University of Jyväskylä
dc.rev Rogers, Simon, Dr., University of Glasgow, United Kingdom
dc.date.defence 2012-10-12


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account