Deep Generative Neural Network Models for Capturing Complex Patterns in Visual Data

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.authorHeljakka, Ari
dc.contributor.departmentTietotekniikan laitosfi
dc.contributor.departmentDepartment of Computer Scienceen
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolSchool of Scienceen
dc.contributor.supervisorKannala, Juho, Prof., Aalto University, Department of Computer Science, Finland; Solin, Arno, Prof., Aalto University, Department of Computer Science, Finland
dc.date.accessioned2020-12-31T10:00:07Z
dc.date.available2020-12-31T10:00:07Z
dc.date.defence2021-01-15
dc.date.issued2020
dc.description.abstractDeep learning methods underlie much of the recent rapid progress in computer vision. These approaches, however, tend to require costly labeled data. Task-specific models such as classifiers are not intended for learning maximally general internal representations. Furthermore, these models cannot simulate the data-generating process to synthesize new samples nor modify input samples. Unsupervised deep generative models have the potential to avoid these problems. However, the two dominant families of generative models, Generative Adversarial Networks (GAN)and Variational Autoencoders (VAE), each come with their characteristic problems. GAN-based models are architecturally relatively complex, with a disposable discriminator network but, usually, no encoder to accept inputs. Also, GAN training is often unstable and prone to ignoring parts oft he training distribution ("mode collapse" or "mode dropping"). VAEs, on the other hand, tend to overestimate the variance in some regions of the distribution, resulting in blurry generated images. This work introduces and evaluates models and techniques that considerably reduce the problems above, and generate sharp image outputs with a simple autoencoder architecture. This is achieved by virtue of two overarching principles. First, a suitable combination of techniques from GAN models is integrated into the recently introduced VAE-like Adversarial Generator-Encoder. Second,the recursive nature of the networks is leveraged in several ways. The Automodulator represents a new category of autoencoders characterized by the use of the latent representation for modulating the statistics of the decoder layers. The network can take multiple images as inputs from which it generates a fused synthetic sample, with some scales of the output driven by one input and the other scales by another, allowing instantaneous 'style-mixing' and other new applications. Finally, with a Gaussian process framework, the image encoder-decoder setup is extended from single images to image sequences, including video and camera runs. To this end, auxiliary image metadata is leveraged in a form of a non-parametric prior in the latent space of a generative model.This allows to, for instance, smoothen and freely interpolate the image sequence. In doing so, an elegant connection is provided between Gaussian processes and computer vision methods,suggesting far-reaching implications in combining the two. This work provides several examples in which the adversarial training principle, without its typical manifestation in a GAN-like network architecture, is sufficient for high-fidelity image manipulation and synthesis. Hence, this often overlooked distinction appears increasingly significant.en
dc.description.abstractSyviin neuroverkkoihin perustuvat laskentamenetelmät ovat mahdollistaneet valtaosan viimeaikaisista konenäön edistysaskelista. Usein ne kuitenkin edellyttävät työläästi koottua merkittyä opetusaineistoa. Tehtäväkohtaiset mallit kuten luokittelijat eivät pyri oppimaan maksimaalisen yleiskäyttöisiä representaatioita tai simuloimaan datan tuottavaa prosessia, eivätkä siten voi syntetisoida näytteitä tai muokata syötettyä dataa. Ohjaamattomasti oppivat syvät generatiiviset mallit voisivat välttää nämä rajoitukset. Kahdella tunnetuimmalla generatiivisten mallien perheellä, generatiivisilla adversariaalisilla verkoilla (GAN) ja variationaalisilla autoenkoodereilla (VAE), on kuitenkin omat luonteenomaiset rajoitteensa. GAN-pohjaiset mallit ovat rakenteeltaan suhteellisen kompleksisia. Ne sisältävät kertakäyttöisen "diskriminaattorin", mutta yleensä eivät enkooderia, jolla malliin voisi syöttää dataa. GAN-mallien opetus on usein epävakaataja malli saattaa sivuuttaa osia opetusaineiston jakaumasta (ns. moodin romahdus tai pudottaminen). VAE-mallit puolestaan usein yliarvioivat varianssia joissakin osissa jakaumaa, mikä näkyy epätarkkuutena generoiduissa kuvissa. Tämä työ esittelee ja analysoi eräitä malleja ja tekniikoita, jotka vähentävät näitä ongelmia ja tuottavat tarkkoja kuvia yksinkertaisella autoenkooderi-rakenteella, perustuen kahteen yleisperiaatteeseen. Ensinnäkin liitetään soveltuva yhdistelmä tekniikoita GAN-malleista tuoreeseen VAE:n kaltaiseen Adversarial Generator-Encoder -malliin. Toiseksi hyödynnetään mallien rekursiivista luonnetta usein eri tavoin. Automodulaattorissa, uudenlaisessa autoenkooderissa, käytetään latenttia representaatiota dekooderin yksittäisten kerrosten tilastollisten ominaisuuksien modulointiin. Malli voi syntetisoida syötekuvia yhdistelmäkuvaksi, jossa yhden skaalan ominaisuuksia ohjaa yksi syöte ja muita toinen, mahdollistaen viiveettömän 'tyyli-miksauksen' ja muita sovelluksia. Lopuksi laajennetaan enkooderi-dekooderi -asetelmaa gaussisten prosessien avulla kuvasarjoihin, kattaen videot ja kamera-ajot. Tähän hyödynnetään kuvien metadataa ei-parametrisena priorina generatiivisen mallin latenttiavaruudessa. Siten voidaan mm.pehmentää siirtymiä ja interpoloida. Samalla luodaan elegantti yhteys gaussisten prosessien ja konenäkömenetelmien välille, mikä avannee laajoja sovellusmahdollisuuksia.Tämä työ sisältää useita esimerkkejä, joissa adversariaalinen opetusmenetelmä, irrallaan siihen tyypillisesti liitetystä GAN-tyyppisestä arkkitehtuurista, on riittävä korkealaatuisten kuvien manipulointiin ja syntetisointiin. Siten tämä usein vähälle huomiolle jäänyt erottelu korostuu.fi
dc.format.extent92 + app. 114
dc.format.mimetypeapplication/pdfen
dc.identifier.isbn978-952-64-0212-3 (electronic)
dc.identifier.isbn978-952-64-0211-6 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/101686
dc.identifier.urnURN:ISBN:978-952-64-0212-3
dc.language.isoenen
dc.opnWinther, Ole, Prof., Technical University of Denmark (DTU), Denmark
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Ari Heljakka, Arno Solin, Juho Kannala. Pioneer Networks: Progressively Growing Generative Autoencoder. Asian Conference on Computer Vision (ACCV), Springer LNCS, volume 11361, pp. 22-38, Dec 2018. Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201906203893. DOI: 10.1007/978-3-030-20887-5_2
dc.relation.haspart[Publication 2]: Ari Heljakka, Arno Solin, Juho Kannala. Towards Photographic Image Manipulation with Balanced Growing of Generative Autoencoders. IEEE Winter Conference on Applications of Computer Vision (WACV), pp. 3109– 3118, Mar 2020. DOI: 10.1109/WACV45572.2020.9093375
dc.relation.haspart[Publication 3]: Ari Heljakka, Yuxin Hou, Juho Kannala, Arno Solin. Deep Automodulators. Advances in Neural Information Processing Systems 33 (NeurIPS 2020), to appear, 26 pages, Dec 2020
dc.relation.haspart[Publication 4]: Ari Heljakka, Arno Solin, Juho Kannala. Recursive Chaining of Reversible Image-to-image Translators for Face Aging. Advanced Concepts for Intelligent Vision Systems (ACIVS), pp. 309-320, Sep 2018. Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201901141220. DOI: 10.1007/978-3-030-01449-0_26
dc.relation.haspart[Publication 5]: Yuxin Hou, Ari Heljakka, Arno Solin. Gaussian Process Priors for View- Aware Inference. Proceedings of the Thirty-Fifth AAAI Conference onArtificial Intelligence (AAAI-21), to appear, 15 pages, Feb 2021
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries221/2020
dc.revLi, Yingzhen, Dr., Microsoft Research Cambridge, UK
dc.revUlyanov, Dmitry, Dr., in3D, USA
dc.subject.keyworddeep learningen
dc.subject.keywordmachine learningen
dc.subject.keyworddeep autoencodersen
dc.subject.keywordgenerative modelsen
dc.subject.keywordGaussian processesen
dc.subject.keywordimage-to-image translationen
dc.subject.keywordautomodulatorsen
dc.subject.keywordsyväoppiminenfi
dc.subject.keywordkoneoppiminenfi
dc.subject.keywordgeneratiiviset mallitfi
dc.subject.keywordsyvät autoenkooderitfi
dc.subject.otherComputer scienceen
dc.titleDeep Generative Neural Network Models for Capturing Complex Patterns in Visual Dataen
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.acrisexportstatuschecked 2021-03-08_1559
local.aalto.archiveyes
local.aalto.formfolder2020_12_31_klo_09_30
local.aalto.infraScience-IT
Files
Original bundle
Now showing 1 - 2 of 2
No Thumbnail Available
Name:
isbn9789526402123.pdf
Size:
27.15 MB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
isbn9789526402123_errata.pdf
Size:
37.92 KB
Format:
Adobe Portable Document Format