Modelling non-stationary functions with Gaussian processes

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Science | Doctoral thesis (article-based) | Defence date: 2019-09-20
Date
2019
Major/Subject
Mcode
Degree programme
Language
en
Pages
46 + app. 55
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 152/2019
Abstract
Gaussian processes (GP's) are a central piece of non-parametric Bayesian methods, which allow placing priors over functions in settings such as classification and regression. The prior is described using a kernel function that encodes a similarity between any two points in the input space, and thus defines the properties of functions that are modelled by the GP. In applying Gaussian processes the choice of the kernel is crucial, and the commonly used standard kernels often offer unsatisfactory performance due to making the assumption of stationarity. This thesis presents approaches in modelling non-stationarity from two different perspectives in Gaussian processes. First, this thesis presents a formulation of a non-stationary spectral mixture kernel for univariate outputs, focusing on modelling the non-stationarity in the input space. The construction is based on the spectral mixture (SM) kernel, which has been derived for stationary functions using the Fourier duality implied by Bochner's theorem. The work done in this thesis extends the SM kernel into the non-stationary case. This is achieved by two complementary approaches, based on replacing the constant frequency parameters by input-dependent functions. The first approach is based on modelling the latent functions describing the frequency surface as Gaussian processes. In the second approach the functions are directly modelled as a neural network, parameters of which are optimized with respect to the variational evidence lower bound (ELBO). Second, this thesis presents a kernel suitable for modelling non-stationary couplings between multiple output variables of interest in the context of multi-task or multi-output GP regression. The construction of the kernel is based on a Hadamard product of two kernels, which model the different aspects of dependencies between the outputs. The part of the kernel modelling the input-dependent couplings is based on a generalized Wishart process, which is a stochastic process on time-varying positive-definite matrices, in this case describing the changing dependencies between the outputs. The proposed Hadamard product kernel is applied in a latent factor model to enrich the latent variable prior distribution, that is, to model correlations within the latent variables explicitly. This results in the latent correlation Gaussian process model (LCGP). This thesis additionally considers novel, flexible models for classification of multi-view data, specifically one based on a mixture of group factor analyzers (GFA). The model has a close relationship to the LCGP that builds a classifier in the latent variable space, while the classifier in the GFA mixture is based on the mixture assignments. GFA also allows modelling dependencies between groups of variables, which is not done by the LCGP. Applying Gaussian processes and adapting the proposed multi-output kernel would make the multi-view model even more general. The methods introduced in this thesis now allow modelling non-stationary functions in Gaussian processes in a flexible way. The proposed kernels can be applied very generally, and the approaches introduced to derive them can also be applied to derive other types of non-stationary kernels.

Gaussiset prosessit (GP) ovat yksi keskeisimpiä epäparametrisiä bayesiläisiä menetelmiä. Niiden avulla on mahdollista asettaa priorijakauma suoraan mallinnettavalle funktiolle esimerkiksi regressiossa tai luokittelussa. Keskeinen osa tätä prioria on niin sanottu kernelifunktio, joka kuvaa kahden datapisteen välistä samankaltaisuutta määräten GP:llä mallinnettavan funktion ominaisuudet. Käytettäessä GP-malleja kernelifunktion oikea valinta on oleellista, ja monet standardikernelit voivat antaa huonoja tuloksia, koska ne olettavat mallinnettavan funktion olevan stationäärinen. Tässä väitöskirjassa esitetään kaksi erilaista lähestymistapaa mallintaa epästationäärisyyttä gaussisissa prosesseissa. Väitöskirjassa esitetään spektrimikstuurikerneleille epästationäärinen versio, joka mallintaa skalaariarvoisten funktioiden epästationäärisyyttä funktion arvojen käyttäytymisen suhteen. Spektrimikstuuri-kernelifunktio perustuu Bochnerin teoreemaan, jonka mukaan jokainen stationäärinen kerneli on esitettävissä spektritiheyden käänteisenä Fourier-muunnoksena. Mallintamalla kernelin taustalla olevaa spektritiheyttä gaussisena mikstuurina saadaan johdettua hyvin joustava ja monipuolinen kerneli GP-malleille. Tulkitsemalla spektritiheysmallin taajuus-, amplitudi- ja leveys-parametrit ajasta tai sijainnista riippuviksi funktioiksi, saadaan tuloksena yleistetty epästationäärinen spektrimikstuuri-kerneli. Tässä väitöskirjassa parametrifunktioita mallinnetaan kahdella vaihtoehtoisella tavalla: gaussisina prosesseina sekä neuroverkkoina. Toinen lähestymistapa epästationäärisyyteen on vektori-arvoisten funktioiden tapauksessa, missä on tärkeää mallintaa vektorin eri muuttujien välisiä riippuvuuksia tai korrelaatioita. Tyypillisissä vektori-arvoisissa stationäärisissä gaussisissa prosesseissa muuttujien väliset riippuvuudet oletetaan olevan vakioita riippumatta siitä, missä kohtaa avaruutta funktion arvoja tarkastellaan.Tässä väitöskirjassa esitetään kernelifunktio, joka pystyy mallintamaan ajassa tai avaruudessa muuttuvia riippuvuuksia funktion eri muuttujien välillä. Esitetty kernelifunktio perustuu yleistetyn Wishartin prosessin ja epästationäärisen gaussisen kernelin yhdistelmään Hadamardin tulona. Tässä väitöskirjassa esitetyt menetelmät mahdollistavat epästationääristen funktioden mallintamisen gaussisilla prosesseilla hyvin joustavilla tavoilla. Esitettyjä kerneleitä voi käyttää hyvin yleisesti eri sovelluksissa, ja kerneleiden johtamisessa käytetyt menetelmät soveltuvat myös uudenlaisten epästationääristen kernelien muodostamisessa.
Description
Supervising professor
Kaski, Samuel, Prof., Aalto University, Department of Computer Science, Finland
Thesis advisor
Heinonen, Markus, Dr., Aalto University, Department of Computer Science, Finland
Mononen, Tommi, Dr., University of Helsinki, Finland
Keywords
gaussian processes, non-stationary kernels, spectral kernels, gaussiset prosessit, epästationääriset kernelit, spektraalikernelit
Other note
Parts
  • [Publication 1]: Sami Remes, Tommi Mononen, Samuel Kaski. Classification of weak multiview signals by sharing factors in a mixture of Bayesian group factor analyzers. In MLINI 2015 - 5th NIPS Workshop on Machine Learning and Interpretation in Neuroimaging, arXiv:1512.05610, Montreal, Quebec, Canada, December 2015.
  • [Publication 2]: Sami Remes, Markus Heinonen, Samuel Kaski. A Mutually-Dependent Hadamard Kernel for Modelling Latent Variable Couplings. In Asian Conference on Machine Learning, Seoul, Korea, November 2017.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201907304458
  • [Publication 3]: Sami Remes, Markus Heinonen, Samuel Kaski. Non-Stationary Spectral Kernels. In Neural Information Processing Systems, Long Beach, California, USA, December 2017.
  • [Publication 4]: Sami Remes, Markus Heinonen, Samuel Kaski. Neural Non-Stationary Spectral Kernel. Submitted to The European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (Machine Learning Journal Track), 26 November 2018.
Citation