Sparse Bayesian Linear Models: Computational Advances and Applications in Epidemiology

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorVehtari, Aki, Prof., Aalto University, Department of Biomedical Engineering and Computational Science, Finland
dc.contributor.advisorMarttinen, Pekka, Dr., Aalto University, Department of Information and Computer Science, Finland
dc.contributor.authorPeltola, Tomi
dc.contributor.departmentLääketieteellisen tekniikan ja laskennallisen tieteen laitosfi
dc.contributor.departmentDepartment of Biomedical Engineering and Computational Scienceen
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolSchool of Scienceen
dc.contributor.supervisorLampinen, Jouko, Prof., Aalto University, Department of Biomedical Engineering and Computational Science, Finland
dc.date.accessioned2014-12-05T10:00:18Z
dc.date.available2014-12-05T10:00:18Z
dc.date.dateaccepted2014-11-10
dc.date.defence2015-01-12
dc.date.issued2014
dc.description.abstractRecent advances in measurement technologies have transformed the landscape of studies in the genetic and metabolic determinants of diseases and other complex traits. DNA and blood samples can be cost- and time-efficiently interrogated for millions of genetic markers and hundreds of circulating metabolites. While the scale and unbiased nature of the characterization of the individual samples creates opportunities for new discoveries, they also pose a challenge for the statistical analysis of the data. One approach for tackling the issues, and a focus of much recent research in statistical methodology, is searching for linear relationships with a sparsity assumption, that is, the presence of only a limited number of practically relevant relationships among the vast number of possibilities. This thesis studies aspects of the statistical modelling and computation with the linearity and sparsity assumptions in the framework of Bayesian data analysis. First, a hierarchical extension of the spike and slab prior distribution for sparse linear regression modelling, to allow additive and dominant effects in genome-wide association analysis, is presented. The model is applied to search for genetic markers related to blood cholesterol levels. A tailored, finitely adaptive Markov chain Monte Carlo algorithm is studied for the computation. Second, an approach for constructing deterministic Gaussian approximations for Bayesian linear latent variable models using the expectation propagation method is described. The main advance is an efficient numerical solution to the moment integrals for bilinear probability factors. Third, a model for the prediction of the risk of adverse cardiovascular events in diabetic individuals using candidate biomarkers is presented. The model is extended hierarchically to include data from non-diabetic individuals. Shrinkage priors and projective covariate selection are applied to identify biomarkers with predictive value. The results of the studies demonstrate benefits from the hierarchical Bayesian modelling. Despite the advances here and generally in the literature, the computation in sparse models and large datasets remains challenging. On the other hand, given the fast pace in the development of deterministic approximation methods, assessing their role in predictive covariate selection would seem timely.en
dc.description.abstractViimeaikaiset edistysaskeleet mittausteknologioissa ovat mahdollistaneet uudenlaisten tutkimusmenetelmien soveltamisen sairauksien ja muiden monitekijäisten piirteiden perinnöllisen ja aineenvaihdunnallisen taustan selvittämiseen. DNA- ja verinäytteistä pystytään mittaamaan verrattain nopeasti ja kustannustehokkaasti miljoonia geenitekijöitä ja satoja aineenvaihdunnan tuotteita. Vaikka yksittäisten näytteiden karakterisoinnin laajuus ja harhaton luonne johtanee uusiin löydöksiin, se myös asettaa haasteita aineistojen tilastolliselle analyysille. Lineaarisuus- ja harvuusoletukset ovat mahdollisia lähtökohtia näihin haasteisiin vastaamiseen ja ne ovatkin olleet viime aikoina tilastollisten menetelmien tutkimuksen keskiössä. Harvuus viittaa käsitykseen, jonka mukaan vain pieni osa kaikista mahdollisista tilastollisista yhteyksistä aineistossa ovat oleellisia. Tässä väitöskirjassa tutkitaan tiettyjä näkökulmia bayesilaiseen tilastolliseen mallinnukseen ja laskentaan harvoissa lineaarimalleissa. Ensimmäisessä mallinnusongelmassa esitetään harvoja ratkaisuja suosivan spike and slab -priorijakauman hierarkkinen laajennus additiivisen ja dominantin perinnöllisen vaihtelun tutkimiseen genominlaajuisissa aineistoissa. Mallia sovelletaan veren kolesterolipitoisuuksiin vaikuttavien perinnöllisten tekijöiden etsimiseen. Työssä tutkitaan myös räätälöityä Markov-ketju Monte Carlo -algoritmia mallin laskennassa. Toisessa mallinnusongelmassa käsitellään determinististen gaussisten approksimaatioiden sovittamista lineaarisille latentti-muuttujamalleille expectation propagation -algoritmilla. Pääkontribuutio on tehokas numeerinen ratkaisu bilineaaristen todennäköisyystekijöiden momenteille. Kolmannessa mallinnusongelmassa esitellään kardiovaskulaaritapahtumien riskiennustemalli diabeetikoille pohjautuen vähän tutkittuihin aineenvaihdunnan tekijöihin. Mallille esitetään hierarkkinen laajennus ei-diabeetikoiden aineiston sisällyttämiseksi. Työssä sovelletaan harvoja ratkaisuja suosivia prioreja ja projektiivista muuttujanvalintaa ennustekykyisten tekijöiden tunnistamiseksi. Tutkimusten tulokset heijastavat hierarkkisen bayesilaisen mallinnuksen hyötyjä. Tässä työssä ja yleisesti kirjallisuudessa esitetyistä edistyksistä huolimatta harvuutta suosivien mallien laskenta suurissa malliavaruuksissa on edelleen haastavaa. Toisaalta determinististen approksimaatiomenetelmien nopean kehityksen avaamien mahdollisuuksien selvittäminen prediktiiviseen muuttujanvalintaan liittyen voisi olla ajankohtaista.fi
dc.format.extent78 + app. 52
dc.format.mimetypeapplication/pdfen
dc.identifier.isbn978-952-60-6012-5 (electronic)
dc.identifier.isbn978-952-60-6011-8 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/14605
dc.identifier.urnURN:ISBN:978-952-60-6012-5
dc.language.isoenen
dc.opnHeskes, Tom, Prof., Radboud University, The Netherlands
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Tomi Peltola, Pekka Marttinen, Antti Jula, Veikko Salomaa, Markus Perola, and Aki Vehtari. Bayesian Variable Selection in Searching for Additive and Dominant Effects in Genome-Wide Data. PLoS ONE, 7, 1, e29115, January 2012. doi:10.1371/journal.pone.0029115.
dc.relation.haspart[Publication 2]: Tomi Peltola, Pekka Marttinen, and Aki Vehtari. Finite Adaptation and Multistep Moves in the Metropolis-Hastings Algorithm for Variable Selection in Genome-Wide Association Analysis. PLoS ONE, 7, 11, e49445, November 2012. doi:10.1371/journal.pone.0049445.
dc.relation.haspart[Publication 3]: Tomi Peltola, Pasi Jylänki, and Aki Vehtari. Expectation Propagation for Likelihoods Depending on an Inner Product of Two Multivariate Random Variables. In Proceedings of the Seventeenth International Conference on Artificial Intelligence and Statistics, Journal of Machine Learning Research: Workshop and Conference Proceedings, 33, 769–777, Reykjavik, Iceland, April 2014.
dc.relation.haspart[Publication 4]: Tomi Peltola, Aki S. Havulinna, Veikko Salomaa, and Aki Vehtari. Hierarchical Bayesian Survival Analysis and Projective Covariate Selection in Cardiovascular Event Risk Prediction. In Proceedings of the Eleventh UAI Bayesian Modeling Applications Workshop, CEUR Workshop Proceedings, Vol-1218, 79–88, Quebec, Canada, July 2014.
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries206/2014
dc.revStephens, Matthew, Prof., The University of Chicago, USA
dc.revHernández-Lobato, José Miguel, Dr., Harvard University, USA
dc.subject.keywordBayesian linear modellingen
dc.subject.keywordsparsityen
dc.subject.keywordMarkov chain Monte Carloen
dc.subject.keywordapproximate inferenceen
dc.subject.keywordbayesilainen lineaarinen mallintaminenfi
dc.subject.keywordharvuusfi
dc.subject.keywordMarkov-ketju Monte Carlofi
dc.subject.keywordlikimääräinen päättelyfi
dc.subject.otherComputer scienceen
dc.titleSparse Bayesian Linear Models: Computational Advances and Applications in Epidemiologyen
dc.titleHarvuutta suosivat bayesilaiset lineaarimallit: laskennallisia menetelmiä ja sovelluksia epidemiologiassafi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.digiauthask
local.aalto.digifolderAalto_64244
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
isbn9789526060125.pdf
Size:
710.88 KB
Format:
Adobe Portable Document Format