Deep convolutional Gaussian processes

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2019-03-11

Department

Major/Subject

Machine learning and data mining

Mcode

SCI3044

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

37

Series

Abstract

Convolutional neural networks have achieved unparalleled results on various machine learning tasks such as image classification, speech recognition, image segmentation, machine translation and many others. Modern neural network architectures have millions of parameters. This makes them prone to overfitting and sensitive to out-of-sample noise. As they are relatively practical to train, these issues can often be counteracted using massive amounts of training data. They have also been found to be prone to adversarial attacks. Developing methods which are well-regularized and could learn complicated functions without using massive amounts of data could enable us to deploy machine learning methods in settings where heaps of data are not available. Gaussian processes are known as a well-regularized statistical method which works beautifully for simple regression and classification tasks with a small number of training examples. Achieving such properties in deep models would be greatly beneficial. In this thesis we develop a deep Gaussian process model with convolutional structure which we call the deep convolutional Gaussian process. It is a method for modelling hierarchical combination of local features using Gaussian process mappings structured in a hierarchical manner. We compare our method on the MNIST and CIFAR-10 image classification tasks against other successful approaches. On the CIFAR-10 dataset, we achieve a more than 10\% improvement in test classification accuracy over other Gaussian process based methods.

Syvät konvolutionaaliset neuroverkot ovat saavuttaneet häkellyttäviä tuloksia erilaisissa koneoppimisongelmissa kuten kuvien luokittelussa, puheentunnistuksessa, kuvien segmentoinnissa, automaattisessa kielenkääntämisessä ja lukuisissa muissa tehtävissä. Moderneissa neuroverkoissa on valtava määrä parametrejä, minkä takia ne helposti ylisovittuvat oppimisongelmaan ja ne ovat herkkiä testivaiheen kohinalle. Näitä ongelmia voidaan lieventää käyttämällä valtavia määriä koulutusesimerkkejä. Jos pystyisimme kehittämään menetelmiä, jotka ovat hyvin regularisoituja, ja jotka pystyisivät oppimaan monimutkaisiakin funktioita vaatimatta valtavia esimerkkimääriä, niin voisimme hyödyntää koneoppimismenetelmiä sovelluksissa, joissa näitä valtavia tietomääriä ei ole käytettävissä. Gaussiset prosessit ovat tunnettuja hyvin regularisoituina malleina, jotka toimivat hyvin yksinkertaisissa regressio- ja luokittelutehtävissä, joissa on pieni määrä koulutusesimerkkejä. Näiden ominaisuuksien saavuttaminen syvissä malleissa olisi edullista. Tässä opinnäytetyössä esittelemme syvän Gaussisen prosessin, jossa hyödynnetään konvolutionaalista rakennetta. Menetelmä on suunniteltu hierarkisesti tunnistamaan yhdistelmiä paikallisista piirteistä datassa. Testaamme menetelmäämme yleisesti käytössä olevilla kuvienluokittelutehtävissä: MNIST ja CIFAR-10 kuvakokoelmilla. CIFAR-10 tehtävässä saavutamme yli kymmenen prosentin parannuksen luokittelutarkkuudessa verrattuna muihin gausissiin prosesseihin perustuviin malleihin.

Description

Supervisor

Kaski, Samuel

Thesis advisor

Heinonen, Markus

Keywords

bayesian machine learning, deep learning, Gaussian process, image classification

Other note

Citation