Gaussian Process Surrogate Methods for Sample-Efficient Approximate Bayesian Computation
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Doctoral thesis (article-based)
| Defence date: 2020-09-25
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2020
Major/Subject
Mcode
Degree programme
Language
en
Pages
84 + app. 166
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 121/2020
Abstract
In many application fields such as ecology, epidemiology and astronomy, simulation models are used to study complex phenomena that occur in nature. Often the analytical form of the likelihood function of these models is either unavailable or too costly to evaluate which complicates statistical inference. Likelihood-free inference (LFI) methods such as approximate Bayesian computation (ABC), based on replacing the evaluations of the intractable likelihood with forward simulations of the model, have become a popular approach to conduct inference for simulation models. Nevertheless, current LFI methods feature several computational and statistical challenges. Especially, standard ABC algorithms require a huge number of simulations which makes them infeasible when the forward simulations are expensive. This thesis deals with likelihood-free inference for computationally costly models. The main contribution is a coherent framework for LFI based on Gaussian process (GP) surrogate models. GP models allow to encode smoothness assumptions of the simulation model output to reduce the amount of simulations needed. Additionally, the uncertainty in the resulting model-based posterior approximations due to the limited simulation budget can be quantified. We develop Bayesian experimental design strategies to select the evaluation locations as to minimise the computational cost. Both sequential designs, where simulations are chosen one-at-a-time basis, and batch strategies, which allow to take advantage of parallel computing, are derived. In addition to the LFI scenario, the proposed methods also apply when the likelihood can be evaluated but is expensive. In essence, the proposed framework can be viewed as an LFI counterpart of probabilistic numerical methods such as Bayesian optimisation, developed for optimising expensive objective functions, and Bayesian quadrature, developed for computing integrals of expensive functions. We demonstrate the advantages of the proposed LFI methods using extensive empirical simulations. Some theoretical analysis of the proposed algorithms is also provided and their relation to some other GP surrogate methods are discussed. In addition to the contributions to statistical methodology, applications in population genomics are also considered. In particular, we use the GP-based ABC methodology to obtain an approximate posterior of a simulation model describing horizontal gene transfer in bacteria. We also develop a probabilistic model and an inference algorithm using a novel combination of ABC and Metropolis-within-Gibbs sampling to facilitate better understanding of bacterial colonisation.Monilla sovellusaloilla, kuten ekologia, epidemiologia ja tähtitiede, monimutkaisia luonnonilmiötä tutkitaan simulaatiomallien avulla. Usein tällaisiin malleihin liittyvä uskottavuusfunktio ei ole analyyttisesti käsiteltävissä tai se on laskennallisesti liian raskas evaluoida, mikä hankaloittaa tilastollista päättelyä. Uskottavuusvapaasta päättelystä (likelihood-free inference, LFI), kuten likimääräinen Bayesilainen päättely (Approximate Bayesian computation, ABC), joka perustuu siihen että hankalasti käsiteltävän uskottavuusfunktion evaluoiminen voidaan periaatteessa korvata suoraan simuloimalla mallista, on tullut suosittu tekniikka tilastolliseen päättelyyn tällaisille malleille. Nykyisiin LFI-menetelmiin liittyy kuitenkin laskennallisia ja tilastollisia haasteita. Erityisesti perusmuotoiset ABC-algoritmit vaativat suuren määrän simulointeja mistä syystä niitä ei voi käyttää silloin kun simuloinnit ovat laskennallisesti raskaita. Tässä väitöskirjassa tarkastellaan uskottavuusvapaata tilastollista päättelyä laskennallisesti raskaille malleille. Työn merkittävin kontribuutio on Gaussin prosessi -surrogaattimalleihin (Gaussian process, GP) perustuva johdonmukainen LFI-tekniikka. GP-mallit mahdollistavat sileysoletusten käyttämisen simulaatioiden määrän vähentämiseen. Lisäksi rajallisesta simulaatiomäärästä johtuvaa epävarmuutta posteriorijakauman laskemisessa itsessään pystyy näin myös arvioimaan. Väitöskirjassa kehitetään Bayesilaiseen koesuunnitteluun perustuvia strategioita evaluaatiopisteiden valintaan niin että laskennallinen vaativuus minimoituu. Työssä johdetaan sekä sekventiaalisia menetelmiä, joissa simulaatiot valitaan yksi kerrallaan, että batch-menetelmiä, jotka mahdollistavat simulointien suorittamisen rinnakkaislaskentana. LFI:n lisäksi kehitetyt menetelmät soveltuvat myös kun uskottavuusfunktio voidaan evaluoida mutta se on laskennallisesti raskasta. Väitöskirjassa ehdotetun lähestymistavan voi nähdä probabilististen numeeristen menetelmien vastineena LFI:lle, samaan tapaan kuin Bayesilainen optimointi on puolestaan kehitetty laskennallisesti raskaiden funktioiden optimointiin ja Bayesilainen kvadratuuri laskennallisesti raskaiden funktioiden integrointiin. Kattavia empiirisiä simulointeja käytetään työssä kehitettyjen LFI-menetelmien etujen näyttämiseen. Väitöskirjassa tutkitaan ehdotettuja algoritmeja myös teoreettisesti ja puidaan niiden yhteyksiä eräisiin muihin GP-surrogaattimenetelmiin. Tilastollisiin menetelmiin liittyvien kontribuutioiden lisäksi työssä tutkitaan populaatiogenomiikkaa. GP-pohjaista ABC-menetelmää käytetään likimääräisen posteriorijakauman laskemiseksi bakteerien horisontaalista geeninsiirtoa kuvaavalle simulaatiomallille. Lisäksi työssä kehitetään todennäköisyyspohjainen malli sekä päättelyalgoritmi, joka yhdistää ABC:n ja Metropolis-within-Gibbs-näyttäistysalgoritmin, bakteerikolonisaation ymmärtämiseksi.Description
Supervising professor
Marttinen, Pekka, Prof., Aalto University, Department of Computer Science, FinlandThesis advisor
Marttinen, Pekka, Prof., Aalto University, FinlandVehtari, Aki, Prof., Aalto University, Finland
Keywords
approximate Bayesian computation, simulator-based models, Gaussian processes, Bayesian experimental design, uncertainty quantification, likimääräinen Bayesilainen päättely, simulaattoripohjaiset mallit, Gaussin prosessi, Bayesilainen koesuunnittelu, epävarmuuden kvantifiointi
Other note
Parts
-
[Publication 1]: Marko Järvenpää, Michael U. Gutmann, Aki Vehtari and Pekka Marttinen. Gaussian process modeling in approximate Bayesian computation to estimate horizontal gene transfer in bacteria. Annals of Applied Statistics, 12(4):2228-2251, November 2018.
Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201812216620DOI: 10.1214/18-AOAS1150 View at publisher
-
[Publication 2]: Marko Järvenpää, Mohamad R. Abdul Sater, Georgia K. Lagoudas, Paul C. Blainey, Loren G. Miller, James A. McKinnell, Susan S. Huang, Yonatan H. Grad and Pekka Marttinen. A Bayesian model of acquistion and clearance of bacterial colonization incorporating within-host variation. PLoS Computational Biology, 15(4):e1006534, 25 pages, April 2019.
Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201906033441DOI: 10.1371/journal.pcbi.1006534 View at publisher
-
[Publication 3]: Marko Järvenpää, Michael U. Gutmann, Arijus Pleska, Aki Vehtari and Pekka Marttinen. Efficient acquisition rules for model-based approximate Bayesian computation. Bayesian Analysis, 14(2):595-622, June 2019.
Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201906033310DOI: 10.1214/18-BA1121 View at publisher
-
[Publication 4]: Marko Järvenpää, Michael U. Gutmann, Aki Vehtari and Pekka Marttinen. Parallel Gaussian process surrogate Bayesian inference with noisy likelihood evaluations. Accepted for publication in Bayesian analysis, 37 pages, February 2020.
DOI: 10.1214/20-BA1200 View at publisher
- [Publication 5]: Marko Järvenpää, Aki Vehtari and Pekka Marttinen. Batch simulations and uncertainty quantification in Gaussian process surrogate approximate Bayesian computation. Proceedings of the 36th Conference on Uncertainty in Artificial Intelligence (UAI), PMLR volume 124, 20 pages, August 2020. Fulltext available: http://proceedings.mlr.press/v124/jarvenpaa20a/jarvenpaa20a.pdf.