Learning Centre

Bayesian Multi-Way Models for Data Translation in Computational Biology

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.author Suvitaival, Tommi
dc.date.accessioned 2014-11-04T10:00:20Z
dc.date.available 2014-11-04T10:00:20Z
dc.date.issued 2014
dc.identifier.isbn 978-952-60-5933-4 (electronic)
dc.identifier.isbn 978-952-60-5932-7 (printed)
dc.identifier.issn 1799-4942 (electronic)
dc.identifier.issn 1799-4934 (printed)
dc.identifier.issn 1799-4934 (ISSN-L)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/14416
dc.description.abstract The inference of differences between samples is a fundamental problem in computational biology and many other sciences. Hypothesis about a complex system can be studied via a controlled experiment. The design of the controlled experiment sets the conditions, or covariates, for the system in such a way that their effect on the system can be studied through independent measurements. When the number of measured variables is high and the variables are correlated, the assumptions of standard statistical methods are no longer valid. In this thesis, computational methods are presented to this problem and its follow-up problems. A similar experiment done on different systems, such as multiple biological species, leads to multiple "views" of the experiment outcome, observed in different data spaces or domains. However, cross-domain experimentation brings uncertainty about the similarity of the systems and their outcomes. Thus, a new question emerges: which of the covariate effects generalize across the domains? In this thesis, novel computational methods are presented for the integration of data views, in order to detect weaker covariate effects and to generalize covariate effects to views with unobserved data. Five main contributions to the inference of covariate effects are presented: (1) When the data are high-dimensional and collinear, the problem of false discovery is curbed by assuming a cluster structure on the observed variables and by handling the uncertainty with Bayesian methods. (2) Prior information about the measurement process can be used to further improve the inference of covariate effects for metabolomic experiments by modeling the multiple layers of uncertainty in the mass spectral data. (3-4) When the data come from multiple measurement sources on the same subjects - that is, from data views with co-occurring samples - it is unknown, whether the covariate effects generalize across the views and whether the outcome of a new intervention can be generalized to a view with no observed data on that intervention. These problems are shown to be possible to solve by assuming a shared generative process for the multiple data views. (5) When the data come from different domains with no co-occurring samples, the inference of between-domain dependencies is not possible in the same way as with co-occurring samples. It is shown that even in this situation, it is possible to identify covariate effects that generalize across the domains, when the experimental design at least weakly binds the domains together. Then, effects that generalize are identified by assuming a shared generative process for the covariate effects. en
dc.description.abstract Eroavaisuuksien löytäminen näytteiden välillä on perustavanlaatuinen ongelma niin laskennallisessa biologiassa kuin muissakin tieteissä. Hypoteesia monimutkaisen järjestelmän toiminnasta voidaan tutkia tekemällä koe. Kokeen olosuhteet kontrolloidaan siten, että koeasetelman määrittelemien kovariaattien vaikutus tutkittavaan systeemiin voidaan todeta riippumattomien mittausten avulla. Jos mitattuja muuttujia on paljon ja niillä on keskinäisiä riippuvuuksia, perinteisten tilastollisten mallien olettamukset eivät päde. Tässä väitöskirjassa esitetään laskennallisia menetelmiä tähän ongelmaan ja sen jatko-ongelmiin. Kun samanlainen koe tehdään useille samankaltaisille järjestelmille, kuten eri biologisille lajeille, saadaan "näkymiä" kokeen tuloksesta eri mittausavaruuksissa. Järjestelmien eroavaisuuksista seuraa kuitenkin epävarmuus tulosten yhteneväisyydestä ja kysymys siitä, mitkä kovariaattien vaikutukset yleistyvät tutkittaville järjestelmille? Tässä väitöskirjassa esitetään uusia laskennallisia menetelmiä havaintoaineistojen yhdistämiseen useista näkymistä, heikkojen kovariaattivaikutusten löytämiseen sekä vaikutusten yleistämiseen näkymiin, joista ei ole saatavilla vastaavia havaintoja. Väitöskirja sisältää viisi pääkontribuutiota kovariaattien vaikutusten löytämiseen: (1) Kun havainnot ovat korkeaulotteisia ja niissä on muuttujien välisiä riippuvuuksia, väärien löydösten riskiä voidaan lieventää mallintamalla ilmiötä bayesilaisittain ja olettamalla, että muuttujat muodostavat ryhmiä. (2) Mittausmenetelmää koskevan prioritiedon tuominen malliin tarkentaa kovariaattien vaikutusten oppimista monitasoista mittauskohinaa sisältävistä metabolomiikkamittauksista. (3-4) Kun havainnot muodostuvat useasta mittausnäkymästä samoille mittauskohteille, on selvitettävä yleistyvätkö kovariaattien vaikutukset usealle näkymälle ja voidaanko uuden kokeen tulos yleistää näkymään, josta ei ole havaintoja uuden kokeen osalta. Nämä kysymykset ratkaistaan olettamalla, että näkymien havainnot ovat muodostuneet yhteisen generatiivisen prosessin kautta. (5) Kun havainnot muodostuvat useasta mittausnäkymästä mutta mittauksen kohteet eivät ole näkymien välillä samat, näkymien välisten riippuvuuksien löytäminen ei ole mahdollista samalla tavalla kuin silloin kun kohteet ovat samat. Väitöskirjassa osoitetaan, että tässäkin tapauksessa on mahdollista löytää näkymien välisiä riippuvuuksia ja niitä voidaan löytää tutkimalla näkymien yhteisten kovariaattien vaikutuksia. fi
dc.format.extent 76 + app. 94
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.publisher Aalto University en
dc.publisher Aalto-yliopisto fi
dc.relation.ispartofseries Aalto University publication series DOCTORAL DISSERTATIONS en
dc.relation.ispartofseries 171/2014
dc.relation.haspart [Publication 1]: Ilkka Huopaniemi, Tommi Suvitaival, Janne Nikkilä, Matej Orešič, and Samuel Kaski. Two-way analysis of high-dimensional collinear data. Data Mining and Knowledge Discovery, Volume 19, Issue 2, Pages 261–276, 2009. DOI 10.1007/s10618-009-0142-5.
dc.relation.haspart [Publication 2]: Tommi Suvitaival, Simon Rogers, and Samuel Kaski. Stronger findings from mass spectral data through multi-peak modeling. BMC Bioinformatics, Volume 15, Article 208, 11 pages, 2014. DOI 10.1186/1471-2105-15-208.
dc.relation.haspart [Publication 3]: Tommi Suvitaival, Simon Rogers, and Samuel Kaski. Stronger findings for metabolomics through Bayesian modeling of multiple peaks and compound correlations. Bioinformatics, Volume 30, Issue 17, Pages i461–i467, 2014. DOI 10.1093/bioinformatics/btu455.
dc.relation.haspart [Publication 4]: Ilkka Huopaniemi, Tommi Suvitaival, Janne Nikkilä, Matej Orešič, and Samuel Kaski. Multivariate multi-way analysis of multi-source data. Bioinformatics, Volume 26, Issue 12, Pages i391–i398, 2010. DOI 10.1093/bioinformatics/btq174.
dc.relation.haspart [Publication 5]: Tommi Suvitaival, Juuso A. Parkkinen, Seppo Virtanen, and Samuel Kaski. Cross-organism toxicogenomics with group factor analysis. Systems Biomedicine, Volume 2, eLocation ID e29291, 9 pages, 2014. DOI 10.4161/sysb.29291.
dc.relation.haspart [Publication 6]: Ilkka Huopaniemi, Tommi Suvitaival, Matej Orešič, and Samuel Kaski. Graphical multi-way models. In Jose Balcázar, Francesco Bonchi, Aristides Gionis, and Michèle Sebag, editors, Machine Learning and Knowledge Discovery in Databases — European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, ECML PKDD 2010, Barcelona, Spain, September 20–24, 2010, Proceedings, Part I, Pages 538–553, Springer, Berlin/Heidelberg, Germany, 2010. DOI 10.1007/978-3-642-15880-3_40.
dc.relation.haspart [Publication 7]: Tommi Suvitaival, Ilkka Huopaniemi, Matej Orešič, and Samuel Kaski. Cross-species translation of multi-way biomarkers. In Timo Honkela, Włodzisław Duch, Mark Girolami and Samuel Kaski, editors, Artificial Neural Networks and Machine Learning — ICANN 2011, 21st International Conference on Artificial Neural Networks, Espoo, Finland, June 14–17, 2011, Proceedings, Part I, Pages 209–216, Springer, Berlin/Heidelberg, Germany, 2011. DOI 10.1007/978-3-642-21735-7_26.
dc.subject.other Computer science en
dc.title Bayesian Multi-Way Models for Data Translation in Computational Biology en
dc.title Bayesilaisia monisuuntaisia malleja biologisten tietoaineistojen translaatio-ongelmaan fi
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Perustieteiden korkeakoulu fi
dc.contributor.school School of Science en
dc.contributor.department Tietojenkäsittelytieteen laitos fi
dc.contributor.department Department of Information and Computer Science en
dc.subject.keyword ANOVA modeling en
dc.subject.keyword Bayesian modeling en
dc.subject.keyword computational biology en
dc.subject.keyword cross-species modeling en
dc.subject.keyword metabolomics en
dc.subject.keyword multi-view modeling en
dc.subject.keyword toxicogenomics en
dc.subject.keyword ANOVA-mallitus fi
dc.subject.keyword bayesilainen mallitus fi
dc.subject.keyword laskennallinen biologia fi
dc.subject.keyword lajienvälinen mallitus fi
dc.subject.keyword metabolomiikka fi
dc.subject.keyword usean näkymän mallitus fi
dc.subject.keyword toksikogenomiikka fi
dc.identifier.urn URN:ISBN:978-952-60-5933-4
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Kaski, Samuel, Prof., Aalto University, Department of Information and Computer Science, Finland
dc.opn Goldenberg, Anna, Asst. Prof., University of Toronto, Canada
dc.date.dateaccepted 2014-10-27
dc.rev Elo-Uhlgren, Laura, Dr., University of Turku, Finland
dc.rev Käll, Lukas, Dr., KTH Royal Institute of Technology, Sweden
dc.date.defence 2014-11-19
local.aalto.digifolder Aalto_63952


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

Statistics