Deep convolutional Gaussian processes

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2019-03-11
Department
Major/Subject
Machine learning and data mining
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
37
Series
Abstract
Convolutional neural networks have achieved unparalleled results on various machine learning tasks such as image classification, speech recognition, image segmentation, machine translation and many others. Modern neural network architectures have millions of parameters. This makes them prone to overfitting and sensitive to out-of-sample noise. As they are relatively practical to train, these issues can often be counteracted using massive amounts of training data. They have also been found to be prone to adversarial attacks. Developing methods which are well-regularized and could learn complicated functions without using massive amounts of data could enable us to deploy machine learning methods in settings where heaps of data are not available. Gaussian processes are known as a well-regularized statistical method which works beautifully for simple regression and classification tasks with a small number of training examples. Achieving such properties in deep models would be greatly beneficial. In this thesis we develop a deep Gaussian process model with convolutional structure which we call the deep convolutional Gaussian process. It is a method for modelling hierarchical combination of local features using Gaussian process mappings structured in a hierarchical manner. We compare our method on the MNIST and CIFAR-10 image classification tasks against other successful approaches. On the CIFAR-10 dataset, we achieve a more than 10\% improvement in test classification accuracy over other Gaussian process based methods.

Syvät konvolutionaaliset neuroverkot ovat saavuttaneet häkellyttäviä tuloksia erilaisissa koneoppimisongelmissa kuten kuvien luokittelussa, puheentunnistuksessa, kuvien segmentoinnissa, automaattisessa kielenkääntämisessä ja lukuisissa muissa tehtävissä. Moderneissa neuroverkoissa on valtava määrä parametrejä, minkä takia ne helposti ylisovittuvat oppimisongelmaan ja ne ovat herkkiä testivaiheen kohinalle. Näitä ongelmia voidaan lieventää käyttämällä valtavia määriä koulutusesimerkkejä. Jos pystyisimme kehittämään menetelmiä, jotka ovat hyvin regularisoituja, ja jotka pystyisivät oppimaan monimutkaisiakin funktioita vaatimatta valtavia esimerkkimääriä, niin voisimme hyödyntää koneoppimismenetelmiä sovelluksissa, joissa näitä valtavia tietomääriä ei ole käytettävissä. Gaussiset prosessit ovat tunnettuja hyvin regularisoituina malleina, jotka toimivat hyvin yksinkertaisissa regressio- ja luokittelutehtävissä, joissa on pieni määrä koulutusesimerkkejä. Näiden ominaisuuksien saavuttaminen syvissä malleissa olisi edullista. Tässä opinnäytetyössä esittelemme syvän Gaussisen prosessin, jossa hyödynnetään konvolutionaalista rakennetta. Menetelmä on suunniteltu hierarkisesti tunnistamaan yhdistelmiä paikallisista piirteistä datassa. Testaamme menetelmäämme yleisesti käytössä olevilla kuvienluokittelutehtävissä: MNIST ja CIFAR-10 kuvakokoelmilla. CIFAR-10 tehtävässä saavutamme yli kymmenen prosentin parannuksen luokittelutarkkuudessa verrattuna muihin gausissiin prosesseihin perustuviin malleihin.
Description
Supervisor
Kaski, Samuel
Thesis advisor
Heinonen, Markus
Keywords
bayesian machine learning, deep learning, Gaussian process, image classification
Other note
Citation