Bayesian exponential family projections
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering |
Master's thesis
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Authors
Date
2010
Major/Subject
Informaatiotekniikka
Mcode
T-61
Degree programme
Language
en
Pages
[6] + 47
Series
Abstract
Exploratory data analysis stands for extracting useful information from data sets. Machine learning methods automate this process by fitting models to data. It is essential to provide all available background knowledge for building such models. Principal component analysis is a standard method for exploratory data analysis. Recently its probabilistic interpretation has illustrated that it is only suitable for a specific type of data. Extension of principal component analysis to the exponential family removes this problem. In this thesis a general model family suitable for the analysis of multiple data sources is presented by building on the exponential family principal component analysis. The unifying framework contains as special cases methods suitable for unsupervised and supervised learning. While earlier methods have mainly relied on maximum likelihood inference, in this thesis Bayesian modelling is chosen. In Bayesian modelling background knowledge is utilized in the form of prior distributions. In this thesis, a general prior distribution is proposed that takes distribution-specific constraints into account. Multiple contributions to modelling, inference and model interpretation are introduced. With empirical experiments it is demonstrated how the proposed methods outperform traditional methods.Eksploratiivinen data-analyysi tarkoittaa oleellisen informaation löytämistä tietoaineistoista, Koneoppimismenetelmät automatisoivat tämän tavoitteen sovittamalla dataan malleja. On oleellista, että kaikki taustatieto voidaan käyttää kyseisten mallien rakentamiseen. Pääkomponenttianalyysi on tyypillinen koneoppimismenetelmä eksploratiiviseen analyysiin. Viime aikoina sen probabilistiset tulkinnat ovat osoittaneet menetelmän rajoittuneisuuden tietyn tyyppiseen dataan. Pääkomponenttianalyysin laajennus eksponentiaaliperheen jakaumiin korjaa tämän ongelman. Työssä esitetään yleinen malliperhe, joka soveltuu usean aineiston analyysiin, rakentamalla pääkomponenttianalyysin eksponentiaaliperheen laajennuksen päälle. Yhtenäinen viitekehys sisältää menetelmiä, jotka soveltuvat ohjattuun ja ohjaamattomaan oppimiseen. Aiemmista menetelmistä poiketen työssä käytetään Bayesilaista menetelmää suurimman uskottavuuden menetelmän sijaan. Bayesilaisessa menetelmässä tausta- tietoa voidaan esittää priorijakaumien muodossa. Työssä esitetään yleinen priorijakauma, jolla voidaan ottaa jakaumille tyypilliset piirteet huomioon. Työssä esitetään useita parannuksia mallintamiseen, mallien rakentamiseen, oppimiseen ja tulkintaan liittyen. Empiirisillä kokeilla osoitetaan, että esitetyt menetelmät toimivat paremmin kuin perinteiset menetelmät.Description
Supervisor
Kaski, SamuelThesis advisor
Klami, ArtoKeywords
approximative Bayesian inference, approksimatiivinen Bayerilainen inferenssi, bayesian modeling, Bayesilainen mallintaminen, canonical correlation analysis, eksponentiaaliperhe, exponential family, kanoninen korrelaatioanalyysi, principal component analysis, ohjaamaton ja ohjattu oppiminen, supervised and unsupervised learning, pääkomponenttianalyysi