Bayesian latent variable models for learning dependencies between multiple data sources

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Klami, Arto, Dr., Helsinki Institute for Information Technology, Finland
dc.contributor.author Virtanen, Seppo
dc.date.accessioned 2014-07-17T09:00:13Z
dc.date.available 2014-07-17T09:00:13Z
dc.date.issued 2014
dc.identifier.isbn 978-952-60-5785-9 (electronic)
dc.identifier.isbn 978-952-60-5784-2 (printed)
dc.identifier.issn 1799-4942 (electronic)
dc.identifier.issn 1799-4934 (printed)
dc.identifier.issn 1799-4934 (ISSN-L)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/13629
dc.description.abstract Machine learning focuses on automated large-scale data analysis extracting useful information from data collections. The data are frequently high-dimensional and may correspond, for example, to images, text documents, or measurements of neural responses. In many applications data can be collected from multiple data sources, that is, views. This thesis presents novel machine learning methods for analyzing multiple data sources, especially for understanding relationships between them. The analysis provides a comprehensive summary of the data generating process, which may be used for exploring the relationships and for predicting observations of one or more sources. The methods are based on two assumptions: each view provides complementary information of the data generating process, and each view is corrupted by noise. The methods aim to utilize all available information (views), accumulating partly overlapping information and reducing view-specific noise. In particular, this thesis presents several Bayesian latent variable models that learn a decomposition of latent variables; some of the variables capture information shared by multiple sources, whereas the remaining variables explain noise in each view. The latent variables may be efficiently inferred based on the observed data by using sparsity assumptions and Bayesian inference. The models are applied for analyzing neural responses to natural stimulation as well as for jointly modeling images and text documents. en
dc.description.abstract Koneoppiminen on suurten tietoaineistojen automaattista analysointia, jossa poimitaan hyödyllistä informaatiota näistä kokoelmista. Tietoaineistojen havainnot ovat usein moniulotteisia ja voivat esimerkiksi olla kuvia, tekstidokumentteja tai neuraalisia mittauksia. Monissa sovelluksissa aineistoja voidaan kerätä useista lähteistä. Tässä väitöskirjassa esitellään usean tietolähteen analysointiin uusia koneoppimismenetelmiä, jotka löytävät lähteiden välisiä riippuvuuksia. Menetelmillä tehtävän analyysin tavoite on tarjota kattava tiivistelmä aineistot tuottaneesta prosessista. Tätä tiivistelmää voidaan käyttää riippuvuuksien tutkimiseen ja yhden tai useamman näkymän havaintojen ennustamiseen. Kehitetyt menetelmät perustuvat kahteen oletukseen: jokainen lähde sisältää osittaista tietoa aineistot tuottaneesta prosessista ja jokaisen lähteen sisältämä tieto on kohinaista. Menetelmät pyrkivät hyödyntämään kaikkea käytettävissä olevaa tietoa (lähteitä) kokoamalla yhteen aineistoissa olevaa päällekkäistä tietoa ja vähentämällä lähteille ominaista kohinaa. Tämän väitöskirjan keskeinen tulos on joukko Bayesiläisiä piilomuuttujamalleja, jotka löytävät piilomuuttujien hajotelman; osa piilomuuttujista selittää lähteiden välistä yhteistä tietoa, kun taas jäljellä olevat muuttujat selittävät lähteille ominaista kohinaa. Piilomuuttujat voidaan tunnistaa havaitun aineiston perusteella tehokkaasti käyttämällä harvuusoletuksia ja Bayesiläistä päättelyä. Malleja on käytetty luonnollisen ärsykkeen neuraalisten vasteiden analysointiin sekä kuvien ja tekstidokumenttien yhteismallintamiseen. fi
dc.format.extent 53 + app. 101
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.publisher Aalto University en
dc.publisher Aalto-yliopisto fi
dc.relation.ispartofseries Aalto University publication series DOCTORAL DISSERTATIONS en
dc.relation.ispartofseries 110/2014
dc.relation.haspart [Publication 1]: Seppo Virtanen, Arto Klami and Samuel Kaski. Bayesian CCA via group sparsity. In Proceedings of the Twenty-Eighth International Conference on Machine Learning, pages 457–464, 2011.
dc.relation.haspart [Publication 2]: Arto Klami, Seppo Virtanen and Samuel Kaski. Bayesian canonical correlation analysis. Journal of Machine Learning Research, 14:965–1003, 2013.
dc.relation.haspart [Publication 3]: Seppo Virtanen, Arto Klami, Suleiman A. Khan and Samuel Kaski. Bayesian group factor analysis. In Proceedings of the Fifteenth International Conference on Artificial Intelligence and Statistics, volume 22 of JMLR W&CP, pages 1269–1277, 2012.
dc.relation.haspart [Publication 4]: Arto Klami, Seppo Virtanen, Eemeli Leppäaho and Samuel Kaski. Group factor analysis. Submitted to a journal, 2014.
dc.relation.haspart [Publication 5]: Arto Klami, Seppo Virtanen and Samuel Kaski. Bayesian exponential family projections for coupled data sources. In Proceedings of the Twenty-Sixth Conference on Uncertainty in Artificial Intelligence, pages 286–293, 2010.
dc.relation.haspart [Publication 6]: Seppo Virtanen, Yangqing Jia, Arto Klami and Trevor Darrell. Factorized multi-modal topic model. In Proceedings of the Twenty-Eighth Conference on Uncertainty in Artificial Intelligence, pages 843–851, 2012.
dc.subject.other Computer science en
dc.title Bayesian latent variable models for learning dependencies between multiple data sources en
dc.title Bayesiläisiä piilomuuttujamalleja usean tietoaineiston välisten riippuvuuksien oppimiseen fi
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Perustieteiden korkeakoulu fi
dc.contributor.school School of Science en
dc.contributor.department Tietojenkäsittelytieteen laitos fi
dc.contributor.department Department of Information and Computer Science en
dc.subject.keyword Bayesian statistics en
dc.subject.keyword latent variable models en
dc.subject.keyword machine learning en
dc.subject.keyword multi-view learning en
dc.subject.keyword sparsity en
dc.subject.keyword Bayesiläinen tilastotiede fi
dc.subject.keyword harvuus fi
dc.subject.keyword koneoppiminen fi
dc.subject.keyword oppiminen useasta tietolähteestä fi
dc.subject.keyword piilomuuttujamallit fi
dc.identifier.urn URN:ISBN:978-952-60-5785-9
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Kaski, Samuel, Prof., Aalto University, Department of Information and Computer Science, Finland
dc.opn Archambeau, Cédric, Dr., Amazon Berlin, Germany and University College London, United Kingdom
dc.date.dateaccepted 2014-06-06
dc.contributor.lab Statistical Machine Learning and Bioinformatics Group en
dc.contributor.lab Tilastollinen koneoppiminen ja bioinformatiikka fi
dc.rev Roos, Teemu, Asst. Prof., University of Helsinki, Finland
dc.rev Obozinski, Guillaume, Dr., Ecole des Ponts - ParisTech, France
dc.date.defence 2014-08-25


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account