Gaussian Process Surrogate Methods for Sample-Efficient Approximate Bayesian Computation

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Doctoral thesis (article-based) | Defence date: 2020-09-25

Date

2020

Major/Subject

Mcode

Degree programme

Language

en

Pages

84 + app. 166

Series

Aalto University publication series DOCTORAL DISSERTATIONS, 121/2020

Abstract

In many application fields such as ecology, epidemiology and astronomy, simulation models are used to study complex phenomena that occur in nature. Often the analytical form of the likelihood function of these models is either unavailable or too costly to evaluate which complicates statistical inference. Likelihood-free inference (LFI) methods such as approximate Bayesian computation (ABC), based on replacing the evaluations of the intractable likelihood with forward simulations of the model, have become a popular approach to conduct inference for simulation models. Nevertheless, current LFI methods feature several computational and statistical challenges. Especially, standard ABC algorithms require a huge number of simulations which makes them infeasible when the forward simulations are expensive. This thesis deals with likelihood-free inference for computationally costly models. The main contribution is a coherent framework for LFI based on Gaussian process (GP) surrogate models. GP models allow to encode smoothness assumptions of the simulation model output to reduce the amount of simulations needed. Additionally, the uncertainty in the resulting model-based posterior approximations due to the limited simulation budget can be quantified. We develop Bayesian experimental design strategies to select the evaluation locations as to minimise the computational cost. Both sequential designs, where simulations are chosen one-at-a-time basis, and batch strategies, which allow to take advantage of parallel computing, are derived. In addition to the LFI scenario, the proposed methods also apply when the likelihood can be evaluated but is expensive. In essence, the proposed framework can be viewed as an LFI counterpart of probabilistic numerical methods such as Bayesian optimisation, developed for optimising expensive objective functions, and Bayesian quadrature, developed for computing integrals of expensive functions. We demonstrate the advantages of the proposed LFI methods using extensive empirical simulations. Some theoretical analysis of the proposed algorithms is also provided and their relation to some other GP surrogate methods are discussed. In addition to the contributions to statistical methodology, applications in population genomics are also considered. In particular, we use the GP-based ABC methodology to obtain an approximate posterior of a simulation model describing horizontal gene transfer in bacteria. We also develop a probabilistic model and an inference algorithm using a novel combination of ABC and Metropolis-within-Gibbs sampling to facilitate better understanding of bacterial colonisation.

Monilla sovellusaloilla, kuten ekologia, epidemiologia ja tähtitiede, monimutkaisia luonnonilmiötä tutkitaan simulaatiomallien avulla. Usein tällaisiin malleihin liittyvä uskottavuusfunktio ei ole analyyttisesti käsiteltävissä tai se on laskennallisesti liian raskas evaluoida, mikä hankaloittaa tilastollista päättelyä. Uskottavuusvapaasta päättelystä (likelihood-free inference, LFI), kuten likimääräinen Bayesilainen päättely (Approximate Bayesian computation, ABC), joka perustuu siihen että hankalasti käsiteltävän uskottavuusfunktion evaluoiminen voidaan periaatteessa korvata suoraan simuloimalla mallista, on tullut suosittu tekniikka tilastolliseen päättelyyn tällaisille malleille. Nykyisiin LFI-menetelmiin liittyy kuitenkin laskennallisia ja tilastollisia haasteita. Erityisesti perusmuotoiset ABC-algoritmit vaativat suuren määrän simulointeja mistä syystä niitä ei voi käyttää silloin kun simuloinnit ovat laskennallisesti raskaita. Tässä väitöskirjassa tarkastellaan uskottavuusvapaata tilastollista päättelyä laskennallisesti raskaille malleille. Työn merkittävin kontribuutio on Gaussin prosessi -surrogaattimalleihin (Gaussian process, GP) perustuva johdonmukainen LFI-tekniikka. GP-mallit mahdollistavat sileysoletusten käyttämisen simulaatioiden määrän vähentämiseen. Lisäksi rajallisesta simulaatiomäärästä johtuvaa epävarmuutta posteriorijakauman laskemisessa itsessään pystyy näin myös arvioimaan. Väitöskirjassa kehitetään Bayesilaiseen koesuunnitteluun perustuvia strategioita evaluaatiopisteiden valintaan niin että laskennallinen vaativuus minimoituu. Työssä johdetaan sekä sekventiaalisia menetelmiä, joissa simulaatiot valitaan yksi kerrallaan, että batch-menetelmiä, jotka mahdollistavat simulointien suorittamisen rinnakkaislaskentana. LFI:n lisäksi kehitetyt menetelmät soveltuvat myös kun uskottavuusfunktio voidaan evaluoida mutta se on laskennallisesti raskasta. Väitöskirjassa ehdotetun lähestymistavan voi nähdä probabilististen numeeristen menetelmien vastineena LFI:lle, samaan tapaan kuin Bayesilainen optimointi on puolestaan kehitetty laskennallisesti raskaiden funktioiden optimointiin ja Bayesilainen kvadratuuri laskennallisesti raskaiden funktioiden integrointiin. Kattavia empiirisiä simulointeja käytetään työssä kehitettyjen LFI-menetelmien etujen näyttämiseen. Väitöskirjassa tutkitaan ehdotettuja algoritmeja myös teoreettisesti ja puidaan niiden yhteyksiä eräisiin muihin GP-surrogaattimenetelmiin. Tilastollisiin menetelmiin liittyvien kontribuutioiden lisäksi työssä tutkitaan populaatiogenomiikkaa. GP-pohjaista ABC-menetelmää käytetään likimääräisen posteriorijakauman laskemiseksi bakteerien horisontaalista geeninsiirtoa kuvaavalle simulaatiomallille. Lisäksi työssä kehitetään todennäköisyyspohjainen malli sekä päättelyalgoritmi, joka yhdistää ABC:n ja Metropolis-within-Gibbs-näyttäistysalgoritmin, bakteerikolonisaation ymmärtämiseksi.

Description

Supervising professor

Marttinen, Pekka, Prof., Aalto University, Department of Computer Science, Finland

Thesis advisor

Marttinen, Pekka, Prof., Aalto University, Finland
Vehtari, Aki, Prof., Aalto University, Finland

Keywords

approximate Bayesian computation, simulator-based models, Gaussian processes, Bayesian experimental design, uncertainty quantification, likimääräinen Bayesilainen päättely, simulaattoripohjaiset mallit, Gaussin prosessi, Bayesilainen koesuunnittelu, epävarmuuden kvantifiointi

Other note

Parts

  • [Publication 1]: Marko Järvenpää, Michael U. Gutmann, Aki Vehtari and Pekka Marttinen. Gaussian process modeling in approximate Bayesian computation to estimate horizontal gene transfer in bacteria. Annals of Applied Statistics, 12(4):2228-2251, November 2018.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201812216620
    DOI: 10.1214/18-AOAS1150 View at publisher
  • [Publication 2]: Marko Järvenpää, Mohamad R. Abdul Sater, Georgia K. Lagoudas, Paul C. Blainey, Loren G. Miller, James A. McKinnell, Susan S. Huang, Yonatan H. Grad and Pekka Marttinen. A Bayesian model of acquistion and clearance of bacterial colonization incorporating within-host variation. PLoS Computational Biology, 15(4):e1006534, 25 pages, April 2019.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201906033441
    DOI: 10.1371/journal.pcbi.1006534 View at publisher
  • [Publication 3]: Marko Järvenpää, Michael U. Gutmann, Arijus Pleska, Aki Vehtari and Pekka Marttinen. Efficient acquisition rules for model-based approximate Bayesian computation. Bayesian Analysis, 14(2):595-622, June 2019.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201906033310
    DOI: 10.1214/18-BA1121 View at publisher
  • [Publication 4]: Marko Järvenpää, Michael U. Gutmann, Aki Vehtari and Pekka Marttinen. Parallel Gaussian process surrogate Bayesian inference with noisy likelihood evaluations. Accepted for publication in Bayesian analysis, 37 pages, February 2020.
    DOI: 10.1214/20-BA1200 View at publisher
  • [Publication 5]: Marko Järvenpää, Aki Vehtari and Pekka Marttinen. Batch simulations and uncertainty quantification in Gaussian process surrogate approximate Bayesian computation. Proceedings of the 36th Conference on Uncertainty in Artificial Intelligence (UAI), PMLR volume 124, 20 pages, August 2020. Fulltext available: http://proceedings.mlr.press/v124/jarvenpaa20a/jarvenpaa20a.pdf.

Citation