dc.contributor | Aalto-yliopisto | fi |
dc.contributor | Aalto University | en |
dc.contributor.author | Suvitaival, Tommi | |
dc.date.accessioned | 2014-11-04T10:00:20Z | |
dc.date.available | 2014-11-04T10:00:20Z | |
dc.date.issued | 2014 | |
dc.identifier.isbn | 978-952-60-5933-4 (electronic) | |
dc.identifier.isbn | 978-952-60-5932-7 (printed) | |
dc.identifier.issn | 1799-4942 (electronic) | |
dc.identifier.issn | 1799-4934 (printed) | |
dc.identifier.issn | 1799-4934 (ISSN-L) | |
dc.identifier.uri | https://aaltodoc.aalto.fi/handle/123456789/14416 | |
dc.description.abstract | The inference of differences between samples is a fundamental problem in computational biology and many other sciences. Hypothesis about a complex system can be studied via a controlled experiment. The design of the controlled experiment sets the conditions, or covariates, for the system in such a way that their effect on the system can be studied through independent measurements. When the number of measured variables is high and the variables are correlated, the assumptions of standard statistical methods are no longer valid. In this thesis, computational methods are presented to this problem and its follow-up problems. A similar experiment done on different systems, such as multiple biological species, leads to multiple "views" of the experiment outcome, observed in different data spaces or domains. However, cross-domain experimentation brings uncertainty about the similarity of the systems and their outcomes. Thus, a new question emerges: which of the covariate effects generalize across the domains? In this thesis, novel computational methods are presented for the integration of data views, in order to detect weaker covariate effects and to generalize covariate effects to views with unobserved data. Five main contributions to the inference of covariate effects are presented: (1) When the data are high-dimensional and collinear, the problem of false discovery is curbed by assuming a cluster structure on the observed variables and by handling the uncertainty with Bayesian methods. (2) Prior information about the measurement process can be used to further improve the inference of covariate effects for metabolomic experiments by modeling the multiple layers of uncertainty in the mass spectral data. (3-4) When the data come from multiple measurement sources on the same subjects - that is, from data views with co-occurring samples - it is unknown, whether the covariate effects generalize across the views and whether the outcome of a new intervention can be generalized to a view with no observed data on that intervention. These problems are shown to be possible to solve by assuming a shared generative process for the multiple data views. (5) When the data come from different domains with no co-occurring samples, the inference of between-domain dependencies is not possible in the same way as with co-occurring samples. It is shown that even in this situation, it is possible to identify covariate effects that generalize across the domains, when the experimental design at least weakly binds the domains together. Then, effects that generalize are identified by assuming a shared generative process for the covariate effects. | en |
dc.description.abstract | Eroavaisuuksien löytäminen näytteiden välillä on perustavanlaatuinen ongelma niin laskennallisessa biologiassa kuin muissakin tieteissä. Hypoteesia monimutkaisen järjestelmän toiminnasta voidaan tutkia tekemällä koe. Kokeen olosuhteet kontrolloidaan siten, että koeasetelman määrittelemien kovariaattien vaikutus tutkittavaan systeemiin voidaan todeta riippumattomien mittausten avulla. Jos mitattuja muuttujia on paljon ja niillä on keskinäisiä riippuvuuksia, perinteisten tilastollisten mallien olettamukset eivät päde. Tässä väitöskirjassa esitetään laskennallisia menetelmiä tähän ongelmaan ja sen jatko-ongelmiin. Kun samanlainen koe tehdään useille samankaltaisille järjestelmille, kuten eri biologisille lajeille, saadaan "näkymiä" kokeen tuloksesta eri mittausavaruuksissa. Järjestelmien eroavaisuuksista seuraa kuitenkin epävarmuus tulosten yhteneväisyydestä ja kysymys siitä, mitkä kovariaattien vaikutukset yleistyvät tutkittaville järjestelmille? Tässä väitöskirjassa esitetään uusia laskennallisia menetelmiä havaintoaineistojen yhdistämiseen useista näkymistä, heikkojen kovariaattivaikutusten löytämiseen sekä vaikutusten yleistämiseen näkymiin, joista ei ole saatavilla vastaavia havaintoja. Väitöskirja sisältää viisi pääkontribuutiota kovariaattien vaikutusten löytämiseen: (1) Kun havainnot ovat korkeaulotteisia ja niissä on muuttujien välisiä riippuvuuksia, väärien löydösten riskiä voidaan lieventää mallintamalla ilmiötä bayesilaisittain ja olettamalla, että muuttujat muodostavat ryhmiä. (2) Mittausmenetelmää koskevan prioritiedon tuominen malliin tarkentaa kovariaattien vaikutusten oppimista monitasoista mittauskohinaa sisältävistä metabolomiikkamittauksista. (3-4) Kun havainnot muodostuvat useasta mittausnäkymästä samoille mittauskohteille, on selvitettävä yleistyvätkö kovariaattien vaikutukset usealle näkymälle ja voidaanko uuden kokeen tulos yleistää näkymään, josta ei ole havaintoja uuden kokeen osalta. Nämä kysymykset ratkaistaan olettamalla, että näkymien havainnot ovat muodostuneet yhteisen generatiivisen prosessin kautta. (5) Kun havainnot muodostuvat useasta mittausnäkymästä mutta mittauksen kohteet eivät ole näkymien välillä samat, näkymien välisten riippuvuuksien löytäminen ei ole mahdollista samalla tavalla kuin silloin kun kohteet ovat samat. Väitöskirjassa osoitetaan, että tässäkin tapauksessa on mahdollista löytää näkymien välisiä riippuvuuksia ja niitä voidaan löytää tutkimalla näkymien yhteisten kovariaattien vaikutuksia. | fi |
dc.format.extent | 76 + app. 94 | |
dc.format.mimetype | application/pdf | en |
dc.language.iso | en | en |
dc.publisher | Aalto University | en |
dc.publisher | Aalto-yliopisto | fi |
dc.relation.ispartofseries | Aalto University publication series DOCTORAL DISSERTATIONS | en |
dc.relation.ispartofseries | 171/2014 | |
dc.relation.haspart | [Publication 1]: Ilkka Huopaniemi, Tommi Suvitaival, Janne Nikkilä, Matej Orešič, and Samuel Kaski. Two-way analysis of high-dimensional collinear data. Data Mining and Knowledge Discovery, Volume 19, Issue 2, Pages 261–276, 2009. DOI 10.1007/s10618-009-0142-5. | |
dc.relation.haspart | [Publication 2]: Tommi Suvitaival, Simon Rogers, and Samuel Kaski. Stronger findings from mass spectral data through multi-peak modeling. BMC Bioinformatics, Volume 15, Article 208, 11 pages, 2014. DOI 10.1186/1471-2105-15-208. | |
dc.relation.haspart | [Publication 3]: Tommi Suvitaival, Simon Rogers, and Samuel Kaski. Stronger findings for metabolomics through Bayesian modeling of multiple peaks and compound correlations. Bioinformatics, Volume 30, Issue 17, Pages i461–i467, 2014. DOI 10.1093/bioinformatics/btu455. | |
dc.relation.haspart | [Publication 4]: Ilkka Huopaniemi, Tommi Suvitaival, Janne Nikkilä, Matej Orešič, and Samuel Kaski. Multivariate multi-way analysis of multi-source data. Bioinformatics, Volume 26, Issue 12, Pages i391–i398, 2010. DOI 10.1093/bioinformatics/btq174. | |
dc.relation.haspart | [Publication 5]: Tommi Suvitaival, Juuso A. Parkkinen, Seppo Virtanen, and Samuel Kaski. Cross-organism toxicogenomics with group factor analysis. Systems Biomedicine, Volume 2, eLocation ID e29291, 9 pages, 2014. DOI 10.4161/sysb.29291. | |
dc.relation.haspart | [Publication 6]: Ilkka Huopaniemi, Tommi Suvitaival, Matej Orešič, and Samuel Kaski. Graphical multi-way models. In Jose Balcázar, Francesco Bonchi, Aristides Gionis, and Michèle Sebag, editors, Machine Learning and Knowledge Discovery in Databases — European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, ECML PKDD 2010, Barcelona, Spain, September 20–24, 2010, Proceedings, Part I, Pages 538–553, Springer, Berlin/Heidelberg, Germany, 2010. DOI 10.1007/978-3-642-15880-3_40. | |
dc.relation.haspart | [Publication 7]: Tommi Suvitaival, Ilkka Huopaniemi, Matej Orešič, and Samuel Kaski. Cross-species translation of multi-way biomarkers. In Timo Honkela, Włodzisław Duch, Mark Girolami and Samuel Kaski, editors, Artificial Neural Networks and Machine Learning — ICANN 2011, 21st International Conference on Artificial Neural Networks, Espoo, Finland, June 14–17, 2011, Proceedings, Part I, Pages 209–216, Springer, Berlin/Heidelberg, Germany, 2011. DOI 10.1007/978-3-642-21735-7_26. | |
dc.subject.other | Computer science | en |
dc.title | Bayesian Multi-Way Models for Data Translation in Computational Biology | en |
dc.title | Bayesilaisia monisuuntaisia malleja biologisten tietoaineistojen translaatio-ongelmaan | fi |
dc.type | G5 Artikkeliväitöskirja | fi |
dc.contributor.school | Perustieteiden korkeakoulu | fi |
dc.contributor.school | School of Science | en |
dc.contributor.department | Tietojenkäsittelytieteen laitos | fi |
dc.contributor.department | Department of Information and Computer Science | en |
dc.subject.keyword | ANOVA modeling | en |
dc.subject.keyword | Bayesian modeling | en |
dc.subject.keyword | computational biology | en |
dc.subject.keyword | cross-species modeling | en |
dc.subject.keyword | metabolomics | en |
dc.subject.keyword | multi-view modeling | en |
dc.subject.keyword | toxicogenomics | en |
dc.subject.keyword | ANOVA-mallitus | fi |
dc.subject.keyword | bayesilainen mallitus | fi |
dc.subject.keyword | laskennallinen biologia | fi |
dc.subject.keyword | lajienvälinen mallitus | fi |
dc.subject.keyword | metabolomiikka | fi |
dc.subject.keyword | usean näkymän mallitus | fi |
dc.subject.keyword | toksikogenomiikka | fi |
dc.identifier.urn | URN:ISBN:978-952-60-5933-4 | |
dc.type.dcmitype | text | en |
dc.type.ontasot | Doctoral dissertation (article-based) | en |
dc.type.ontasot | Väitöskirja (artikkeli) | fi |
dc.contributor.supervisor | Kaski, Samuel, Prof., Aalto University, Department of Information and Computer Science, Finland | |
dc.opn | Goldenberg, Anna, Asst. Prof., University of Toronto, Canada | |
dc.date.dateaccepted | 2014-10-27 | |
dc.rev | Elo-Uhlgren, Laura, Dr., University of Turku, Finland | |
dc.rev | Käll, Lukas, Dr., KTH Royal Institute of Technology, Sweden | |
dc.date.defence | 2014-11-19 | |
local.aalto.digifolder | Aalto_63952 |
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.