Approximate Bayesian Inference Methods for Regression and Classification with Gaussian Processes and Neural Networks

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Science | Doctoral thesis (article-based) | Defence date: 2013-10-17
Checking the digitized thesis and permission for publishing
Instructions for the author
Date
2013
Major/Subject
Mcode
Degree programme
Language
en
Pages
79 + app. 129
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 152/2013
Abstract
During the recent decades much research has been done on a very general approximate Bayesian inference framework known as expectation propagation (EP), which has been found to be a fast and very accurate method in many experimental comparisons. A challenge with the practical application of EP is that a numerically robust and computationally efficient implementation is not straightforward with many model specifications, and that there is no guarantee for the convergence of the standard EP algorithm. This thesis considers robust and efficient application of EP using Gaussian approximating families in three challenging inference problems. In addition, various experimental results are presented to compare the accuracy of EP with several alternative methods for approximate Bayesian inference. The first inference problem considers Gaussian process (GP) regression with the Student-t observation model, where standard EP may run into convergence problems, because the posterior distribution may contain multiple modes. This thesis illustrates the situations where standard EP fails to converge, reviews different modifications and alternative algorithms for improving the convergence, and presents a robust EP implementation that relies primarily on parallel EP updates and uses a provably convergent double-loop algorithm with adaptively selected step size in difficult cases. The second inference problem considers multi-class GP classification with the multinomial probit model, where a straightforward EP implementation requires either multi-dimensional numerical integrations or a factored posterior approximation for the latent values related to the different classes. This thesis describes a novel nested EP approach that does not require numerical integrations and approximates accurately all between-class posterior dependencies of the latent values, but still scales linearly in the number of classes. The third inference problem considers nonlinear regression using two-layer neural networks (NNs) with sparsity-promoting hierarchical priors on the inputs, where the challenge is to construct sufficiently accurate and computationally efficient approximations for the likelihood terms that depend in a non-linear manner on the network weights. This thesis describes a novel computationally efficient EP approach for simultaneous approximate integration over the posterior distribution of the weights, the hierarchical scale parameters of the priors, and the residual scale. The approach enables flexible definition of weight priors with different sparseness properties, and it can be extended beyond standard activation functions and NN model structures to form flexible nonlinear predictors from multiple sparse linear models.

Viimeisien vuosikymmenien aikana on tutkittu paljon bayesilaiseen approksimatiiviseen päättelyyn soveltuvaa expectation-propagation-menetelmää (EP), joka on osoittaunut nopeaksi ja erittäin tarkaksi useissa kokeellisissa vertailuissa. Haasteena EP:n soveltamisessa on se, että numeerisesti robusti ja laskennallisesti tehokas käytännön toteutus ei ole suoraviivaista useilla mallimäärittelyillä, ja että normaalimuotoisen EP-algoritmin konvergoituminen ei ole taattu kaikissa tilanteissa. Tämä työ käsittelee robustia ja laskennallisesti tehokasta EP:n toteuttamista gaussisilla approksimaatioilla kolmessa vaativassa mallinnusongelmassa. Lisäksi työssä esitellään useita kokeellisia tuloksia, joissa EP:n tarkkuutta verrataan keskeisiin vaihtoehtoisiin approksimaatiomenetelmiin. Ensimmäinen mallinnusongelma käsittelee regressiota gaussisilla prosesseilla ja Student-t-havaintomallilla, missä EP-algoritmi voi ajautua konvergenssiongelmiin johtuen posteriori-jakauman mahdollisesta monimoodisuudesta. Tässä työssä havainnollistetaan tilanteita, joissa normaalimuotoinen EP-algoritmi ei konvergoidu ja käydään läpi erilaisia algoritmimuunnoksia konvergenssin parantamiseksi. Lisäksi esitellään uudentyyppinen algoritmitoteutus, jossa hyödynnetään ensisijaisesti rinnakkaisia EP-päivityksia ja vaikeissa tilanteissa todistettavasti konvergoituvaa kaksoissilmukka-algoritmia mukautuvalla askelpituudella. Toinen mallinnusongelma käsittelee monen luokan luokittelua multinomiprobitmallilla, missä suoraviivainen EP-toteutus edellyttää joko moniulotteisia numeerisia integrointeja tai riippumattomia posterioriapproksimaatioita. Tässä työssä esitellään uudenlainen sisäkkäisiä EP-approksimaatioita hyödyntävä algoritmi, joka ei vaadi numeerisia integrointeja ja approksimoi tarkasti luokkien väliset posterioririippuvuudet mutta skaalautuu tästä huolimatta lineaarisesti luokkien lukumäärän suhteen. Kolmas mallinnusongelma käsittelee epälineaarista regressiota kaksikerroksisella neuroverkolla, jossa on harvoja ratkaisuja suosiva hierarkkinen priori sisäänmenoille. EP-toteutuksessa haasteena on riittävän tarkkojen ja laskennallisesti tehokkaiden approksimaatioiden muodostaminen havaintomallin termeille, jotka riippuvat epälineaarisesti kaikista verkon parametreista. Tässä työssä esitellään laskennallisesti tehokas EP-toteutus, jossa integroidaan sekä verkon kertoimien, hierarkkisten skaalaparametrien että kohinaparametrin yli. Toteutus mahdollistaa monipuolisten harvojen priorien määrittelyn ja se voidaan laajentaa yleisille aktivaatiofunktioille ja monipuolisille mallirakenteille. Tämä mahdollistaa monipuolisten epälineaaristen ennustemallien toteuttamisen harvoja lineaarimalleja yhdistelemällä.
Description
Supervising professor
Lampinen, Jouko, Prof., Aalto University, Department of Biomedical Engineering and Computational Science, Finland
Thesis advisor
Vehtari, Aki, Dr., Aalto University, Department of Biomedical Engineering and Computational Science, Finland
Keywords
approximate Bayesian inference, expectation propagation, Gaussian processes, neural networks, approksimatiivinen bayesilainen päättely, gaussiset prosessit, neuroverkot
Other note
Parts
  • [Publication 1]: Jarno Vanhatalo, Pasi Jylänki and Aki Vehtari. Gaussian process regression with Student-t likelihood. In Advances in Neural Information Processing Systems 22, edited by Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, and A. Culotta, 1910–1918, 2009.
  • [Publication 2]: Pasi Jylänki, Jarno Vanhatalo and Aki Vehtari. Robust Gaussian Process Regression with a Student-t Likelihood. Journal of Machine Learning Research, 12, 3227–3257, Nov 2011.
  • [Publication 3]: Jaakko Riihimäki, Pasi Jylänki and Aki Vehtari. Nested Expectation Propagation for Gaussian Process Classification with a Multinomial Probit Likelihood. Journal of Machine Learning Research, 14, 75–109, Jan 2013.
  • [Publication 4]: Pasi Jylänki, Aapo Nummenmaa and Aki Vehtari. Expectation Propagation for Neural Networks with Sparsity-promoting Priors. Journal of Machine Learning Research, Accepted for publication conditioned on minor revisions, preprint: arXiv:1303.6938 [stat.ML], 2013.
Citation