Natural gradient for variational Bayesian learning
No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Informaatio- ja luonnontieteiden tiedekunta |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2010
Department
Major/Subject
Informaatiotekniikka
Mcode
T-61
Degree programme
Language
en
Pages
65
Series
Abstract
Todennäköisyysmalleilla on hyvin tärkeä asema koneoppimisessa, ja näiden mallien tehokas oppiminen on tärkeä ongelma. Valitettavasti näiden mallien matemaattinen käsittely suoraan on usein mahdotonta, ja mallien oppimisessa joudutaankin turvautumaan erilaisiin approksimaatioihin. Eräs tällainen approksimaatio on variaatiol3ayes-menetelmä, jossa todellista posteriorijakaumaa approksimoidaan toisella jakaumalla ja näiden kahden jakauman välistä eroa pyritään minimoimaan. Variaatio-Bayes-oppimisessa voidaan käyttää monia eri optimointialgoritmeja. Tässä työssä keskitytään gradienttipohjaisiin algoritmeihin. Näillä algoritmeilla on kuitenkin tyypillisesti yksi heikkous. Yleensä nämä menetelmät olettavat, että avaruus, jossa funktiota optimoidaan, on geometrialtaan euklidinen. Tilastollisissa malleissa tämä ei usein pidä paikkaansa, vaan avaruus on todellisuudessa Riemannin monisto. Luonnolliseen gradienttiin pohjautuvat optimointialgoritmit ottavat tämän geometrisen ominaisuuden huomioon ja ovat usein huomattavasti nopeampia kuin perinteiset optimointialgoritmit. Eräs tehokas ja suhteellisen yksinkertainen menetelmä saadaan yleistämällä konjugaattigradienttialgoritmi Riemannin monistoille. Näin saatua menetelmää kutsutaan Riemannin konjugaattigradientiksi. Tässä työssä esitellään tehokas Riemannin konjugaattigradienttialgoritmi variaatio-Bayes-menetelmää käyttävien tilastollisten mallien oppimiseen. Esimerkkiongelmana käytetään epälineaarisia tila-avaruusmalleja, joita käytetään sekä keinotekoisten että todellisten data-aineistojen oppimiseen. Näistä kokeista saadut tulokset osoittavat että esitelty algoritmi on huomattavasti tehokkaampi kuin muut vertailussa käytetyt perinteisemmät algoritmit.Probabilistic models play a very important role in machine learning, and the efficient learning of such models is a very important problem. Unfortunately, the exact statistical treatment of probabilistic models is often impossible and therefore various approximations have to be used. One such approximation is given by variational Bayesian (VB) learning which uses another distribution to approximate the true posterior distribution and tries to minimise the misfit between the two distributions. Many different optimisation algorithms can be used for variational Bayesian learning. This thesis concentrates on gradient based optimisation algorithms. Most of these algorithms suffer from one significant shortcoming, however. Typically these methods assume that the geometry of the problem space is flat, whereas in reality the space is a curved Riemannian manifold. Natural-gradient-based optimisation algorithms take this property into account, and can often result in significant speedups compared to traditional optimisation methods. One particularly powerful and relatively simple algorithm can be derived by extending conjugate gradient to Riemannian manifolds. The resulting algorithm is known as Riemannian conjugate gradient. This thesis presents an efficient Riemannian conjugate gradient algorithm for learning probabilistic models where variational approximation is used. Nonlinear state-space models are used as a case study, and results from experiments with both synthetic and real-world data sets are presented. The results demonstrate that the proposed algorithm provides significant performance gains over the other compared methods.Description
Supervisor
Karhunen, JuhaThesis advisor
Honkela, AnttiKeywords
koneoppiminen, luonnollinen gradientti, Riemannin konjugaattigradientti, epälineaariset tila-avaruusmallit, variaatio-Bayes-menetelmä, machine learning, natural gradient, Riemannian conjugate gradient, nonlinear state-space models, variational Bayes