Deep Generative Neural Network Models for Capturing Complex Patterns in Visual Data

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Science | Doctoral thesis (article-based) | Defence date: 2021-01-15
Date
2020
Major/Subject
Mcode
Degree programme
Language
en
Pages
92 + app. 114
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 221/2020
Abstract
Deep learning methods underlie much of the recent rapid progress in computer vision. These approaches, however, tend to require costly labeled data. Task-specific models such as classifiers are not intended for learning maximally general internal representations. Furthermore, these models cannot simulate the data-generating process to synthesize new samples nor modify input samples. Unsupervised deep generative models have the potential to avoid these problems. However, the two dominant families of generative models, Generative Adversarial Networks (GAN)and Variational Autoencoders (VAE), each come with their characteristic problems. GAN-based models are architecturally relatively complex, with a disposable discriminator network but, usually, no encoder to accept inputs. Also, GAN training is often unstable and prone to ignoring parts oft he training distribution ("mode collapse" or "mode dropping"). VAEs, on the other hand, tend to overestimate the variance in some regions of the distribution, resulting in blurry generated images. This work introduces and evaluates models and techniques that considerably reduce the problems above, and generate sharp image outputs with a simple autoencoder architecture. This is achieved by virtue of two overarching principles. First, a suitable combination of techniques from GAN models is integrated into the recently introduced VAE-like Adversarial Generator-Encoder. Second,the recursive nature of the networks is leveraged in several ways. The Automodulator represents a new category of autoencoders characterized by the use of the latent representation for modulating the statistics of the decoder layers. The network can take multiple images as inputs from which it generates a fused synthetic sample, with some scales of the output driven by one input and the other scales by another, allowing instantaneous 'style-mixing' and other new applications. Finally, with a Gaussian process framework, the image encoder-decoder setup is extended from single images to image sequences, including video and camera runs. To this end, auxiliary image metadata is leveraged in a form of a non-parametric prior in the latent space of a generative model.This allows to, for instance, smoothen and freely interpolate the image sequence. In doing so, an elegant connection is provided between Gaussian processes and computer vision methods,suggesting far-reaching implications in combining the two. This work provides several examples in which the adversarial training principle, without its typical manifestation in a GAN-like network architecture, is sufficient for high-fidelity image manipulation and synthesis. Hence, this often overlooked distinction appears increasingly significant.

Syviin neuroverkkoihin perustuvat laskentamenetelmät ovat mahdollistaneet valtaosan viimeaikaisista konenäön edistysaskelista. Usein ne kuitenkin edellyttävät työläästi koottua merkittyä opetusaineistoa. Tehtäväkohtaiset mallit kuten luokittelijat eivät pyri oppimaan maksimaalisen yleiskäyttöisiä representaatioita tai simuloimaan datan tuottavaa prosessia, eivätkä siten voi syntetisoida näytteitä tai muokata syötettyä dataa. Ohjaamattomasti oppivat syvät generatiiviset mallit voisivat välttää nämä rajoitukset. Kahdella tunnetuimmalla generatiivisten mallien perheellä, generatiivisilla adversariaalisilla verkoilla (GAN) ja variationaalisilla autoenkoodereilla (VAE), on kuitenkin omat luonteenomaiset rajoitteensa. GAN-pohjaiset mallit ovat rakenteeltaan suhteellisen kompleksisia. Ne sisältävät kertakäyttöisen "diskriminaattorin", mutta yleensä eivät enkooderia, jolla malliin voisi syöttää dataa. GAN-mallien opetus on usein epävakaataja malli saattaa sivuuttaa osia opetusaineiston jakaumasta (ns. moodin romahdus tai pudottaminen). VAE-mallit puolestaan usein yliarvioivat varianssia joissakin osissa jakaumaa, mikä näkyy epätarkkuutena generoiduissa kuvissa. Tämä työ esittelee ja analysoi eräitä malleja ja tekniikoita, jotka vähentävät näitä ongelmia ja tuottavat tarkkoja kuvia yksinkertaisella autoenkooderi-rakenteella, perustuen kahteen yleisperiaatteeseen. Ensinnäkin liitetään soveltuva yhdistelmä tekniikoita GAN-malleista tuoreeseen VAE:n kaltaiseen Adversarial Generator-Encoder -malliin. Toiseksi hyödynnetään mallien rekursiivista luonnetta usein eri tavoin. Automodulaattorissa, uudenlaisessa autoenkooderissa, käytetään latenttia representaatiota dekooderin yksittäisten kerrosten tilastollisten ominaisuuksien modulointiin. Malli voi syntetisoida syötekuvia yhdistelmäkuvaksi, jossa yhden skaalan ominaisuuksia ohjaa yksi syöte ja muita toinen, mahdollistaen viiveettömän 'tyyli-miksauksen' ja muita sovelluksia. Lopuksi laajennetaan enkooderi-dekooderi -asetelmaa gaussisten prosessien avulla kuvasarjoihin, kattaen videot ja kamera-ajot. Tähän hyödynnetään kuvien metadataa ei-parametrisena priorina generatiivisen mallin latenttiavaruudessa. Siten voidaan mm.pehmentää siirtymiä ja interpoloida. Samalla luodaan elegantti yhteys gaussisten prosessien ja konenäkömenetelmien välille, mikä avannee laajoja sovellusmahdollisuuksia.Tämä työ sisältää useita esimerkkejä, joissa adversariaalinen opetusmenetelmä, irrallaan siihen tyypillisesti liitetystä GAN-tyyppisestä arkkitehtuurista, on riittävä korkealaatuisten kuvien manipulointiin ja syntetisointiin. Siten tämä usein vähälle huomiolle jäänyt erottelu korostuu.
Description
Supervising professor
Kannala, Juho, Prof., Aalto University, Department of Computer Science, Finland; Solin, Arno, Prof., Aalto University, Department of Computer Science, Finland
Keywords
deep learning, machine learning, deep autoencoders, generative models, Gaussian processes, image-to-image translation, automodulators, syväoppiminen, koneoppiminen, generatiiviset mallit, syvät autoenkooderit
Other note
Parts
  • [Publication 1]: Ari Heljakka, Arno Solin, Juho Kannala. Pioneer Networks: Progressively Growing Generative Autoencoder. Asian Conference on Computer Vision (ACCV), Springer LNCS, volume 11361, pp. 22-38, Dec 2018.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201906203893
    DOI: 10.1007/978-3-030-20887-5_2 View at publisher
  • [Publication 2]: Ari Heljakka, Arno Solin, Juho Kannala. Towards Photographic Image Manipulation with Balanced Growing of Generative Autoencoders. IEEE Winter Conference on Applications of Computer Vision (WACV), pp. 3109– 3118, Mar 2020.
    DOI: 10.1109/WACV45572.2020.9093375 View at publisher
  • [Publication 3]: Ari Heljakka, Yuxin Hou, Juho Kannala, Arno Solin. Deep Automodulators. Advances in Neural Information Processing Systems 33 (NeurIPS 2020), to appear, 26 pages, Dec 2020
  • [Publication 4]: Ari Heljakka, Arno Solin, Juho Kannala. Recursive Chaining of Reversible Image-to-image Translators for Face Aging. Advanced Concepts for Intelligent Vision Systems (ACIVS), pp. 309-320, Sep 2018.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201901141220
    DOI: 10.1007/978-3-030-01449-0_26 View at publisher
  • [Publication 5]: Yuxin Hou, Ari Heljakka, Arno Solin. Gaussian Process Priors for View- Aware Inference. Proceedings of the Thirty-Fifth AAAI Conference onArtificial Intelligence (AAAI-21), to appear, 15 pages, Feb 2021
Citation