Sparse Bayesian Linear Models: Computational Advances and Applications in Epidemiology

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Science | Doctoral thesis (article-based) | Defence date: 2015-01-12
Checking the digitized thesis and permission for publishing
Instructions for the author
Date
2014
Major/Subject
Mcode
Degree programme
Language
en
Pages
78 + app. 52
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 206/2014
Abstract
Recent advances in measurement technologies have transformed the landscape of studies in the genetic and metabolic determinants of diseases and other complex traits. DNA and blood samples can be cost- and time-efficiently interrogated for millions of genetic markers and hundreds of circulating metabolites. While the scale and unbiased nature of the characterization of the individual samples creates opportunities for new discoveries, they also pose a challenge for the statistical analysis of the data. One approach for tackling the issues, and a focus of much recent research in statistical methodology, is searching for linear relationships with a sparsity assumption, that is, the presence of only a limited number of practically relevant relationships among the vast number of possibilities. This thesis studies aspects of the statistical modelling and computation with the linearity and sparsity assumptions in the framework of Bayesian data analysis. First, a hierarchical extension of the spike and slab prior distribution for sparse linear regression modelling, to allow additive and dominant effects in genome-wide association analysis, is presented. The model is applied to search for genetic markers related to blood cholesterol levels. A tailored, finitely adaptive Markov chain Monte Carlo algorithm is studied for the computation. Second, an approach for constructing deterministic Gaussian approximations for Bayesian linear latent variable models using the expectation propagation method is described. The main advance is an efficient numerical solution to the moment integrals for bilinear probability factors. Third, a model for the prediction of the risk of adverse cardiovascular events in diabetic individuals using candidate biomarkers is presented. The model is extended hierarchically to include data from non-diabetic individuals. Shrinkage priors and projective covariate selection are applied to identify biomarkers with predictive value. The results of the studies demonstrate benefits from the hierarchical Bayesian modelling. Despite the advances here and generally in the literature, the computation in sparse models and large datasets remains challenging. On the other hand, given the fast pace in the development of deterministic approximation methods, assessing their role in predictive covariate selection would seem timely.

Viimeaikaiset edistysaskeleet mittausteknologioissa ovat mahdollistaneet uudenlaisten tutkimusmenetelmien soveltamisen sairauksien ja muiden monitekijäisten piirteiden perinnöllisen ja aineenvaihdunnallisen taustan selvittämiseen. DNA- ja verinäytteistä pystytään mittaamaan verrattain nopeasti ja kustannustehokkaasti miljoonia geenitekijöitä ja satoja aineenvaihdunnan tuotteita. Vaikka yksittäisten näytteiden karakterisoinnin laajuus ja harhaton luonne johtanee uusiin löydöksiin, se myös asettaa haasteita aineistojen tilastolliselle analyysille. Lineaarisuus- ja harvuusoletukset ovat mahdollisia lähtökohtia näihin haasteisiin vastaamiseen ja ne ovatkin olleet viime aikoina tilastollisten menetelmien tutkimuksen keskiössä. Harvuus viittaa käsitykseen, jonka mukaan vain pieni osa kaikista mahdollisista tilastollisista yhteyksistä aineistossa ovat oleellisia. Tässä väitöskirjassa tutkitaan tiettyjä näkökulmia bayesilaiseen tilastolliseen mallinnukseen ja laskentaan harvoissa lineaarimalleissa. Ensimmäisessä mallinnusongelmassa esitetään harvoja ratkaisuja suosivan spike and slab -priorijakauman hierarkkinen laajennus additiivisen ja dominantin perinnöllisen vaihtelun tutkimiseen genominlaajuisissa aineistoissa. Mallia sovelletaan veren kolesterolipitoisuuksiin vaikuttavien perinnöllisten tekijöiden etsimiseen. Työssä tutkitaan myös räätälöityä Markov-ketju Monte Carlo -algoritmia mallin laskennassa. Toisessa mallinnusongelmassa käsitellään determinististen gaussisten approksimaatioiden sovittamista lineaarisille latentti-muuttujamalleille expectation propagation -algoritmilla. Pääkontribuutio on tehokas numeerinen ratkaisu bilineaaristen todennäköisyystekijöiden momenteille. Kolmannessa mallinnusongelmassa esitellään kardiovaskulaaritapahtumien riskiennustemalli diabeetikoille pohjautuen vähän tutkittuihin aineenvaihdunnan tekijöihin. Mallille esitetään hierarkkinen laajennus ei-diabeetikoiden aineiston sisällyttämiseksi. Työssä sovelletaan harvoja ratkaisuja suosivia prioreja ja projektiivista muuttujanvalintaa ennustekykyisten tekijöiden tunnistamiseksi. Tutkimusten tulokset heijastavat hierarkkisen bayesilaisen mallinnuksen hyötyjä. Tässä työssä ja yleisesti kirjallisuudessa esitetyistä edistyksistä huolimatta harvuutta suosivien mallien laskenta suurissa malliavaruuksissa on edelleen haastavaa. Toisaalta determinististen approksimaatiomenetelmien nopean kehityksen avaamien mahdollisuuksien selvittäminen prediktiiviseen muuttujanvalintaan liittyen voisi olla ajankohtaista.
Description
Supervising professor
Lampinen, Jouko, Prof., Aalto University, Department of Biomedical Engineering and Computational Science, Finland
Thesis advisor
Vehtari, Aki, Prof., Aalto University, Department of Biomedical Engineering and Computational Science, Finland
Marttinen, Pekka, Dr., Aalto University, Department of Information and Computer Science, Finland
Keywords
Bayesian linear modelling, sparsity, Markov chain Monte Carlo, approximate inference, bayesilainen lineaarinen mallintaminen, harvuus, Markov-ketju Monte Carlo, likimääräinen päättely
Other note
Parts
  • [Publication 1]: Tomi Peltola, Pekka Marttinen, Antti Jula, Veikko Salomaa, Markus Perola, and Aki Vehtari. Bayesian Variable Selection in Searching for Additive and Dominant Effects in Genome-Wide Data. PLoS ONE, 7, 1, e29115, January 2012. doi:10.1371/journal.pone.0029115.
  • [Publication 2]: Tomi Peltola, Pekka Marttinen, and Aki Vehtari. Finite Adaptation and Multistep Moves in the Metropolis-Hastings Algorithm for Variable Selection in Genome-Wide Association Analysis. PLoS ONE, 7, 11, e49445, November 2012. doi:10.1371/journal.pone.0049445.
  • [Publication 3]: Tomi Peltola, Pasi Jylänki, and Aki Vehtari. Expectation Propagation for Likelihoods Depending on an Inner Product of Two Multivariate Random Variables. In Proceedings of the Seventeenth International Conference on Artificial Intelligence and Statistics, Journal of Machine Learning Research: Workshop and Conference Proceedings, 33, 769–777, Reykjavik, Iceland, April 2014.
  • [Publication 4]: Tomi Peltola, Aki S. Havulinna, Veikko Salomaa, and Aki Vehtari. Hierarchical Bayesian Survival Analysis and Projective Covariate Selection in Cardiovascular Event Risk Prediction. In Proceedings of the Eleventh UAI Bayesian Modeling Applications Workshop, CEUR Workshop Proceedings, Vol-1218, 79–88, Quebec, Canada, July 2014.
Citation