Learning Centre

Deep Generative Neural Network Models for Capturing Complex Patterns in Visual Data

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.author Heljakka, Ari
dc.date.accessioned 2020-12-31T10:00:07Z
dc.date.available 2020-12-31T10:00:07Z
dc.date.issued 2020
dc.identifier.isbn 978-952-64-0212-3 (electronic)
dc.identifier.isbn 978-952-64-0211-6 (printed)
dc.identifier.issn 1799-4942 (electronic)
dc.identifier.issn 1799-4934 (printed)
dc.identifier.issn 1799-4934 (ISSN-L)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/101686
dc.description.abstract Deep learning methods underlie much of the recent rapid progress in computer vision. These approaches, however, tend to require costly labeled data. Task-specific models such as classifiers are not intended for learning maximally general internal representations. Furthermore, these models cannot simulate the data-generating process to synthesize new samples nor modify input samples. Unsupervised deep generative models have the potential to avoid these problems. However, the two dominant families of generative models, Generative Adversarial Networks (GAN)and Variational Autoencoders (VAE), each come with their characteristic problems. GAN-based models are architecturally relatively complex, with a disposable discriminator network but, usually, no encoder to accept inputs. Also, GAN training is often unstable and prone to ignoring parts oft he training distribution ("mode collapse" or "mode dropping"). VAEs, on the other hand, tend to overestimate the variance in some regions of the distribution, resulting in blurry generated images. This work introduces and evaluates models and techniques that considerably reduce the problems above, and generate sharp image outputs with a simple autoencoder architecture. This is achieved by virtue of two overarching principles. First, a suitable combination of techniques from GAN models is integrated into the recently introduced VAE-like Adversarial Generator-Encoder. Second,the recursive nature of the networks is leveraged in several ways. The Automodulator represents a new category of autoencoders characterized by the use of the latent representation for modulating the statistics of the decoder layers. The network can take multiple images as inputs from which it generates a fused synthetic sample, with some scales of the output driven by one input and the other scales by another, allowing instantaneous 'style-mixing' and other new applications. Finally, with a Gaussian process framework, the image encoder-decoder setup is extended from single images to image sequences, including video and camera runs. To this end, auxiliary image metadata is leveraged in a form of a non-parametric prior in the latent space of a generative model.This allows to, for instance, smoothen and freely interpolate the image sequence. In doing so, an elegant connection is provided between Gaussian processes and computer vision methods,suggesting far-reaching implications in combining the two. This work provides several examples in which the adversarial training principle, without its typical manifestation in a GAN-like network architecture, is sufficient for high-fidelity image manipulation and synthesis. Hence, this often overlooked distinction appears increasingly significant. en
dc.description.abstract Syviin neuroverkkoihin perustuvat laskentamenetelmät ovat mahdollistaneet valtaosan viimeaikaisista konenäön edistysaskelista. Usein ne kuitenkin edellyttävät työläästi koottua merkittyä opetusaineistoa. Tehtäväkohtaiset mallit kuten luokittelijat eivät pyri oppimaan maksimaalisen yleiskäyttöisiä representaatioita tai simuloimaan datan tuottavaa prosessia, eivätkä siten voi syntetisoida näytteitä tai muokata syötettyä dataa. Ohjaamattomasti oppivat syvät generatiiviset mallit voisivat välttää nämä rajoitukset. Kahdella tunnetuimmalla generatiivisten mallien perheellä, generatiivisilla adversariaalisilla verkoilla (GAN) ja variationaalisilla autoenkoodereilla (VAE), on kuitenkin omat luonteenomaiset rajoitteensa. GAN-pohjaiset mallit ovat rakenteeltaan suhteellisen kompleksisia. Ne sisältävät kertakäyttöisen "diskriminaattorin", mutta yleensä eivät enkooderia, jolla malliin voisi syöttää dataa. GAN-mallien opetus on usein epävakaataja malli saattaa sivuuttaa osia opetusaineiston jakaumasta (ns. moodin romahdus tai pudottaminen). VAE-mallit puolestaan usein yliarvioivat varianssia joissakin osissa jakaumaa, mikä näkyy epätarkkuutena generoiduissa kuvissa. Tämä työ esittelee ja analysoi eräitä malleja ja tekniikoita, jotka vähentävät näitä ongelmia ja tuottavat tarkkoja kuvia yksinkertaisella autoenkooderi-rakenteella, perustuen kahteen yleisperiaatteeseen. Ensinnäkin liitetään soveltuva yhdistelmä tekniikoita GAN-malleista tuoreeseen VAE:n kaltaiseen Adversarial Generator-Encoder -malliin. Toiseksi hyödynnetään mallien rekursiivista luonnetta usein eri tavoin. Automodulaattorissa, uudenlaisessa autoenkooderissa, käytetään latenttia representaatiota dekooderin yksittäisten kerrosten tilastollisten ominaisuuksien modulointiin. Malli voi syntetisoida syötekuvia yhdistelmäkuvaksi, jossa yhden skaalan ominaisuuksia ohjaa yksi syöte ja muita toinen, mahdollistaen viiveettömän 'tyyli-miksauksen' ja muita sovelluksia. Lopuksi laajennetaan enkooderi-dekooderi -asetelmaa gaussisten prosessien avulla kuvasarjoihin, kattaen videot ja kamera-ajot. Tähän hyödynnetään kuvien metadataa ei-parametrisena priorina generatiivisen mallin latenttiavaruudessa. Siten voidaan mm.pehmentää siirtymiä ja interpoloida. Samalla luodaan elegantti yhteys gaussisten prosessien ja konenäkömenetelmien välille, mikä avannee laajoja sovellusmahdollisuuksia.Tämä työ sisältää useita esimerkkejä, joissa adversariaalinen opetusmenetelmä, irrallaan siihen tyypillisesti liitetystä GAN-tyyppisestä arkkitehtuurista, on riittävä korkealaatuisten kuvien manipulointiin ja syntetisointiin. Siten tämä usein vähälle huomiolle jäänyt erottelu korostuu. fi
dc.format.extent 92 + app. 114
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.publisher Aalto University en
dc.publisher Aalto-yliopisto fi
dc.relation.ispartofseries Aalto University publication series DOCTORAL DISSERTATIONS en
dc.relation.ispartofseries 221/2020
dc.relation.haspart [Publication 1]: Ari Heljakka, Arno Solin, Juho Kannala. Pioneer Networks: Progressively Growing Generative Autoencoder. Asian Conference on Computer Vision (ACCV), Springer LNCS, volume 11361, pp. 22-38, Dec 2018. Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201906203893. DOI: 10.1007/978-3-030-20887-5_2
dc.relation.haspart [Publication 2]: Ari Heljakka, Arno Solin, Juho Kannala. Towards Photographic Image Manipulation with Balanced Growing of Generative Autoencoders. IEEE Winter Conference on Applications of Computer Vision (WACV), pp. 3109– 3118, Mar 2020. DOI: 10.1109/WACV45572.2020.9093375
dc.relation.haspart [Publication 3]: Ari Heljakka, Yuxin Hou, Juho Kannala, Arno Solin. Deep Automodulators. Advances in Neural Information Processing Systems 33 (NeurIPS 2020), to appear, 26 pages, Dec 2020
dc.relation.haspart [Publication 4]: Ari Heljakka, Arno Solin, Juho Kannala. Recursive Chaining of Reversible Image-to-image Translators for Face Aging. Advanced Concepts for Intelligent Vision Systems (ACIVS), pp. 309-320, Sep 2018. Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201901141220. DOI: 10.1007/978-3-030-01449-0_26
dc.relation.haspart [Publication 5]: Yuxin Hou, Ari Heljakka, Arno Solin. Gaussian Process Priors for View- Aware Inference. Proceedings of the Thirty-Fifth AAAI Conference onArtificial Intelligence (AAAI-21), to appear, 15 pages, Feb 2021
dc.subject.other Computer science en
dc.title Deep Generative Neural Network Models for Capturing Complex Patterns in Visual Data en
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Perustieteiden korkeakoulu fi
dc.contributor.school School of Science en
dc.contributor.department Tietotekniikan laitos fi
dc.contributor.department Department of Computer Science en
dc.subject.keyword deep learning en
dc.subject.keyword machine learning en
dc.subject.keyword deep autoencoders en
dc.subject.keyword generative models en
dc.subject.keyword Gaussian processes en
dc.subject.keyword image-to-image translation en
dc.subject.keyword automodulators en
dc.subject.keyword syväoppiminen fi
dc.subject.keyword koneoppiminen fi
dc.subject.keyword generatiiviset mallit fi
dc.subject.keyword syvät autoenkooderit fi
dc.identifier.urn URN:ISBN:978-952-64-0212-3
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Kannala, Juho, Prof., Aalto University, Department of Computer Science, Finland; Solin, Arno, Prof., Aalto University, Department of Computer Science, Finland
dc.opn Winther, Ole, Prof., Technical University of Denmark (DTU), Denmark
dc.rev Li, Yingzhen, Dr., Microsoft Research Cambridge, UK
dc.rev Ulyanov, Dmitry, Dr., in3D, USA
dc.date.defence 2021-01-15
local.aalto.acrisexportstatus checked 2021-03-08_1559
local.aalto.infra Science-IT
local.aalto.formfolder 2020_12_31_klo_09_30
local.aalto.archive yes


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

Statistics