Bayesian exponential family projections

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Master's thesis
Checking the digitized thesis and permission for publishing
Instructions for the author

Date

2010

Major/Subject

Informaatiotekniikka

Mcode

T-61

Degree programme

Language

en

Pages

[6] + 47

Series

Abstract

Exploratory data analysis stands for extracting useful information from data sets. Machine learning methods automate this process by fitting models to data. It is essential to provide all available background knowledge for building such models. Principal component analysis is a standard method for exploratory data analysis. Recently its probabilistic interpretation has illustrated that it is only suitable for a specific type of data. Extension of principal component analysis to the exponential family removes this problem. In this thesis a general model family suitable for the analysis of multiple data sources is presented by building on the exponential family principal component analysis. The unifying framework contains as special cases methods suitable for unsupervised and supervised learning. While earlier methods have mainly relied on maximum likelihood inference, in this thesis Bayesian modelling is chosen. In Bayesian modelling background knowledge is utilized in the form of prior distributions. In this thesis, a general prior distribution is proposed that takes distribution-specific constraints into account. Multiple contributions to modelling, inference and model interpretation are introduced. With empirical experiments it is demonstrated how the proposed methods outperform traditional methods.

Eksploratiivinen data-analyysi tarkoittaa oleellisen informaation löytämistä tietoaineistoista, Koneoppimismenetelmät automatisoivat tämän tavoitteen sovittamalla dataan malleja. On oleellista, että kaikki taustatieto voidaan käyttää kyseisten mallien rakentamiseen. Pääkomponenttianalyysi on tyypillinen koneoppimismenetelmä eksploratiiviseen analyysiin. Viime aikoina sen probabilistiset tulkinnat ovat osoittaneet menetelmän rajoittuneisuuden tietyn tyyppiseen dataan. Pääkomponenttianalyysin laajennus eksponentiaaliperheen jakaumiin korjaa tämän ongelman. Työssä esitetään yleinen malliperhe, joka soveltuu usean aineiston analyysiin, rakentamalla pääkomponenttianalyysin eksponentiaaliperheen laajennuksen päälle. Yhtenäinen viitekehys sisältää menetelmiä, jotka soveltuvat ohjattuun ja ohjaamattomaan oppimiseen. Aiemmista menetelmistä poiketen työssä käytetään Bayesilaista menetelmää suurimman uskottavuuden menetelmän sijaan. Bayesilaisessa menetelmässä tausta- tietoa voidaan esittää priorijakaumien muodossa. Työssä esitetään yleinen priorijakauma, jolla voidaan ottaa jakaumille tyypilliset piirteet huomioon. Työssä esitetään useita parannuksia mallintamiseen, mallien rakentamiseen, oppimiseen ja tulkintaan liittyen. Empiirisillä kokeilla osoitetaan, että esitetyt menetelmät toimivat paremmin kuin perinteiset menetelmät.

Description

Supervisor

Kaski, Samuel

Thesis advisor

Klami, Arto

Keywords

approximative Bayesian inference, approksimatiivinen Bayerilainen inferenssi, bayesian modeling, Bayesilainen mallintaminen, canonical correlation analysis, eksponentiaaliperhe, exponential family, kanoninen korrelaatioanalyysi, principal component analysis, ohjaamaton ja ohjattu oppiminen, supervised and unsupervised learning, pääkomponenttianalyysi

Other note

Citation