aalto1 untyped-item.component.html

Kernel selection in Gaussian processes and Bayesian optimization

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Bachelor's thesis

Department

Mcode

SCI3029

Language

en

Pages

45

Series

Abstract

Bayesian optimization is a powerful technique for optimizing expensive-to-evaluate black-box functions that works by maximizing the performance of machine learning models. Most often, the machine learning model paired with Bayesian optimization is Gaussian Process Regression (GPR). It is a supervised machine learning method based on Bayesian inference, and as such, a useful method for handling tasks with inherent uncertainty. While GPR is a prominent method for handling such tasks, proper initialization is often problematic: GPRs are wholly defined by their mean and covariance functions, and finding a suitable mean and covariance is anything but trivial when, as is often the case, there exists no prior knowledge of the function under study. Of the difficulties above, the problem of finding the covariance function, also called the kernel, is the main interest of this thesis. After an extensive theoretical overview and a study of previously developed solutions for selecting the best-performing kernel from a list of predefined kernels, it was deemed that a metric called the Bayesian Information Criterion value (BIC-value) seems the most promising. The performance of the BIC value as a measure of performance for a kernel was then studied further by training models on several different toy problems and inspecting the resulting fits, while also comparing it with other well-known metrics for model performance. The number of data points required to identify the best-performing kernel reliably was also studied, as well as how changing the kernel based on the given BIC-values at each step of the Bayesian optimization path affects the model’s convergence towards the known optimal values of the studied function. After these steps, it was found that the BIC-value is a suitable metric for choosing the kernel for a GPR model. However, the penalization of the likelihood and the number of model parameters were deemed to be off by a small margin, and further studies focusing on refining these could potentially lead to the finding of an even more accurate metric.

Bayesilainen optimointi on tehokas tekniikka tilanteisiin, joissa pyritään arvioimaan niin kutsuttuja musta laatikko -funktioita, joiden evaluointi uusissa datapisteissä on tavalla tai toisella kallista. Tekniikan perusperiaatteena on maksimoida ongelmaan sovelletun koneoppimismallin suorituskykyä. Useimmiten kyseinen koneoppimismalli on Gaussisten Prosessien Regressio (GPR), joka on bayesilaiseen päättelyyn perustuva valvotun koneoppimisen malli. Tällaisenaan GPR onkin siis hyödyllinen malli tilanteisiin, joihin liittyy luontaista epävarmuutta. Vaikka GPR onkin käyttökelpoinen malli näissä tilanteissa, sen alustaminen on usein haasteellista: GPR määritellään täysin sen keskiarvo- ja kovarianssifunktioiden avulla, ja niiden määrittäminen on erityisen hankalaa niissä varsin yleisissä tilanteissa, joissa ennakkotietoa tutkittavasta funktiosta ei ole. Tässä opinnäytetyössä tarkastellaan edellä mainituista ongelmista kovarianssifunktion, toiselta nimeltään kernelin, valitsemista. Laajan teoreettisen katsauksen sekä valmiiden ratkaisujen tarkastelun perusteella tutkimuksessa tultiin tulokseen, että niin kutsuttu Bayesin informaatiokriteerin arvo (BIC-arvo) vaikuttaa lupaavimmalta ratkaisulta kernelin suorituskyvyn arvoimiseen. BIC-arvon toimivuutta kernelin suorituskyvyn mittaamiseksi tutkittiin kouluttamalla malleja useaan erilaiseen testiongelmaan ja tarkastelemalla näiden mallien antamia sovituksia sekä vertailemalla muita tunnettuja mallin suorituskykyä arvioivia mittareita. Tutkittavana oli myös riittävä mittapisteiden määrä parhaan kernelin luotettavan valinnan varmistamiseksi, kun käytettynä metriikkana toimii BIC-arvo. Lisäksi tutkittiin myös sitä, kuinka kernelin muuttaminen BIC-arvon perusteella bayesilaisen optimoinnin jokaisessa askeleessa vaikuttaa mallin ennustaman optimaalisen arvon lähentymiseen kohti ongelman tunnettua optimaalista arvoa. Tutkimuksen lopputuloksena havaittiin, että BIC-arvo on käyttökelpoinen metriikka kernelin valitsemiseen GPR-malleille. Lisähavaintona huomattiin, että BIC-arvon painotus mallin uskottavuuden ja parametrien määrän välillä oli hieman epätarkka, ja tämän aiheen jatkotutkimus voisikin johtaa vielä tarkemman metriikan löytämiseen.

Description

Supervisor

Hyvönen, Nuutti

Thesis advisor

Miranda Valdez, Isaac

Other note

Citation

Endorsement

Review

Supplemented By

Referenced By