Sparse Bayesian Linear Models: Computational Advances and Applications in Epidemiology

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Vehtari, Aki, Prof., Aalto University, Department of Biomedical Engineering and Computational Science, Finland
dc.contributor.advisor Marttinen, Pekka, Dr., Aalto University, Department of Information and Computer Science, Finland
dc.contributor.author Peltola, Tomi
dc.date.accessioned 2014-12-05T10:00:18Z
dc.date.available 2014-12-05T10:00:18Z
dc.date.issued 2014
dc.identifier.isbn 978-952-60-6012-5 (electronic)
dc.identifier.isbn 978-952-60-6011-8 (printed)
dc.identifier.issn 1799-4942 (electronic)
dc.identifier.issn 1799-4934 (printed)
dc.identifier.issn 1799-4934 (ISSN-L)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/14605
dc.description.abstract Recent advances in measurement technologies have transformed the landscape of studies in the genetic and metabolic determinants of diseases and other complex traits. DNA and blood samples can be cost- and time-efficiently interrogated for millions of genetic markers and hundreds of circulating metabolites. While the scale and unbiased nature of the characterization of the individual samples creates opportunities for new discoveries, they also pose a challenge for the statistical analysis of the data. One approach for tackling the issues, and a focus of much recent research in statistical methodology, is searching for linear relationships with a sparsity assumption, that is, the presence of only a limited number of practically relevant relationships among the vast number of possibilities. This thesis studies aspects of the statistical modelling and computation with the linearity and sparsity assumptions in the framework of Bayesian data analysis. First, a hierarchical extension of the spike and slab prior distribution for sparse linear regression modelling, to allow additive and dominant effects in genome-wide association analysis, is presented. The model is applied to search for genetic markers related to blood cholesterol levels. A tailored, finitely adaptive Markov chain Monte Carlo algorithm is studied for the computation. Second, an approach for constructing deterministic Gaussian approximations for Bayesian linear latent variable models using the expectation propagation method is described. The main advance is an efficient numerical solution to the moment integrals for bilinear probability factors. Third, a model for the prediction of the risk of adverse cardiovascular events in diabetic individuals using candidate biomarkers is presented. The model is extended hierarchically to include data from non-diabetic individuals. Shrinkage priors and projective covariate selection are applied to identify biomarkers with predictive value. The results of the studies demonstrate benefits from the hierarchical Bayesian modelling. Despite the advances here and generally in the literature, the computation in sparse models and large datasets remains challenging. On the other hand, given the fast pace in the development of deterministic approximation methods, assessing their role in predictive covariate selection would seem timely. en
dc.description.abstract Viimeaikaiset edistysaskeleet mittausteknologioissa ovat mahdollistaneet uudenlaisten tutkimusmenetelmien soveltamisen sairauksien ja muiden monitekijäisten piirteiden perinnöllisen ja aineenvaihdunnallisen taustan selvittämiseen. DNA- ja verinäytteistä pystytään mittaamaan verrattain nopeasti ja kustannustehokkaasti miljoonia geenitekijöitä ja satoja aineenvaihdunnan tuotteita. Vaikka yksittäisten näytteiden karakterisoinnin laajuus ja harhaton luonne johtanee uusiin löydöksiin, se myös asettaa haasteita aineistojen tilastolliselle analyysille. Lineaarisuus- ja harvuusoletukset ovat mahdollisia lähtökohtia näihin haasteisiin vastaamiseen ja ne ovatkin olleet viime aikoina tilastollisten menetelmien tutkimuksen keskiössä. Harvuus viittaa käsitykseen, jonka mukaan vain pieni osa kaikista mahdollisista tilastollisista yhteyksistä aineistossa ovat oleellisia. Tässä väitöskirjassa tutkitaan tiettyjä näkökulmia bayesilaiseen tilastolliseen mallinnukseen ja laskentaan harvoissa lineaarimalleissa. Ensimmäisessä mallinnusongelmassa esitetään harvoja ratkaisuja suosivan spike and slab -priorijakauman hierarkkinen laajennus additiivisen ja dominantin perinnöllisen vaihtelun tutkimiseen genominlaajuisissa aineistoissa. Mallia sovelletaan veren kolesterolipitoisuuksiin vaikuttavien perinnöllisten tekijöiden etsimiseen. Työssä tutkitaan myös räätälöityä Markov-ketju Monte Carlo -algoritmia mallin laskennassa. Toisessa mallinnusongelmassa käsitellään determinististen gaussisten approksimaatioiden sovittamista lineaarisille latentti-muuttujamalleille expectation propagation -algoritmilla. Pääkontribuutio on tehokas numeerinen ratkaisu bilineaaristen todennäköisyystekijöiden momenteille. Kolmannessa mallinnusongelmassa esitellään kardiovaskulaaritapahtumien riskiennustemalli diabeetikoille pohjautuen vähän tutkittuihin aineenvaihdunnan tekijöihin. Mallille esitetään hierarkkinen laajennus ei-diabeetikoiden aineiston sisällyttämiseksi. Työssä sovelletaan harvoja ratkaisuja suosivia prioreja ja projektiivista muuttujanvalintaa ennustekykyisten tekijöiden tunnistamiseksi. Tutkimusten tulokset heijastavat hierarkkisen bayesilaisen mallinnuksen hyötyjä. Tässä työssä ja yleisesti kirjallisuudessa esitetyistä edistyksistä huolimatta harvuutta suosivien mallien laskenta suurissa malliavaruuksissa on edelleen haastavaa. Toisaalta determinististen approksimaatiomenetelmien nopean kehityksen avaamien mahdollisuuksien selvittäminen prediktiiviseen muuttujanvalintaan liittyen voisi olla ajankohtaista. fi
dc.format.extent 78 + app. 52
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.publisher Aalto University en
dc.publisher Aalto-yliopisto fi
dc.relation.ispartofseries Aalto University publication series DOCTORAL DISSERTATIONS en
dc.relation.ispartofseries 206/2014
dc.relation.haspart [Publication 1]: Tomi Peltola, Pekka Marttinen, Antti Jula, Veikko Salomaa, Markus Perola, and Aki Vehtari. Bayesian Variable Selection in Searching for Additive and Dominant Effects in Genome-Wide Data. PLoS ONE, 7, 1, e29115, January 2012. doi:10.1371/journal.pone.0029115.
dc.relation.haspart [Publication 2]: Tomi Peltola, Pekka Marttinen, and Aki Vehtari. Finite Adaptation and Multistep Moves in the Metropolis-Hastings Algorithm for Variable Selection in Genome-Wide Association Analysis. PLoS ONE, 7, 11, e49445, November 2012. doi:10.1371/journal.pone.0049445.
dc.relation.haspart [Publication 3]: Tomi Peltola, Pasi Jylänki, and Aki Vehtari. Expectation Propagation for Likelihoods Depending on an Inner Product of Two Multivariate Random Variables. In Proceedings of the Seventeenth International Conference on Artificial Intelligence and Statistics, Journal of Machine Learning Research: Workshop and Conference Proceedings, 33, 769–777, Reykjavik, Iceland, April 2014.
dc.relation.haspart [Publication 4]: Tomi Peltola, Aki S. Havulinna, Veikko Salomaa, and Aki Vehtari. Hierarchical Bayesian Survival Analysis and Projective Covariate Selection in Cardiovascular Event Risk Prediction. In Proceedings of the Eleventh UAI Bayesian Modeling Applications Workshop, CEUR Workshop Proceedings, Vol-1218, 79–88, Quebec, Canada, July 2014.
dc.subject.other Computer science en
dc.title Sparse Bayesian Linear Models: Computational Advances and Applications in Epidemiology en
dc.title Harvuutta suosivat bayesilaiset lineaarimallit: laskennallisia menetelmiä ja sovelluksia epidemiologiassa fi
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Perustieteiden korkeakoulu fi
dc.contributor.school School of Science en
dc.contributor.department Lääketieteellisen tekniikan ja laskennallisen tieteen laitos fi
dc.contributor.department Department of Biomedical Engineering and Computational Science en
dc.subject.keyword Bayesian linear modelling en
dc.subject.keyword sparsity en
dc.subject.keyword Markov chain Monte Carlo en
dc.subject.keyword approximate inference en
dc.subject.keyword bayesilainen lineaarinen mallintaminen fi
dc.subject.keyword harvuus fi
dc.subject.keyword Markov-ketju Monte Carlo fi
dc.subject.keyword likimääräinen päättely fi
dc.identifier.urn URN:ISBN:978-952-60-6012-5
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Lampinen, Jouko, Prof., Aalto University, Department of Biomedical Engineering and Computational Science, Finland
dc.opn Heskes, Tom, Prof., Radboud University, The Netherlands
dc.date.dateaccepted 2014-11-10
dc.rev Stephens, Matthew, Prof., The University of Chicago, USA
dc.rev Hernández-Lobato, José Miguel, Dr., Harvard University, USA
dc.date.defence 2015-01-12


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account