The thesis introduces two novel covariate selection methods for Gaussian process models. The methods sort the covariates of a full Gaussian process model based on predictive relevance by examining the posterior predictive distribution in the vicinity of the training points. Experiments conducted on synthetic and real world data sets demonstrate improved variable selection compared to automatic relevance determination, a commonly used existing method. The new methods are shown to be more consistent and produce submodels with a better predictive performance. The proposed methods are expected to be useful in simplifying and interpreting complex Gaussian process models.
Tässä työssä esitetään kaksi uutta muuttujanvalintamenetelmää Gaussisten prosessien avulla rakennetuille tilastollisille malleille. Menetelmät järjestävät kovariaatit perustuen niiden kykyyn ennustaa selitettävän muuttujan arvoja. Tämä tehdään tarkastelemalla täyden mallin tuottamia ennusteita lähellä mallin sovitukseen käytettyjä datapisteitä. Kovariaattien järjestyksen perusteella voidaan rakentaa yksinkertaisempi malli käyttämällä vain parhaita muuttujia. Menetelmien kykyä järjestää kovariaatit niiden merkitsevyyden mukaan tutkittiin simuloitujen sekä avointen tietoaineistojen avulla rakennetuissa muuttujanvalintaongelmissa. Tulokset osoittavat, että uudet menetelmät järjestävät muuttujat johdonmukaisemmin kuin yleisesti käytetty olemassa oleva ARD-menetelmä, sekä valitut muuttujat ennustavat selitettävää muuttujaa paremmin. Esiteltyjen menetelmien uskotaan olevan hyödyksi yksinkertaistamaan ja tulkitsemaan monimutkaisia Gaussisten prosessien avulla rakennettuja malleja.