Advances in Evaluation Metrics and Sampling Techniques for Generative Image Models
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Doctoral thesis (article-based)
| Defence date: 2025-08-15
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
Major/Subject
Mcode
Degree programme
Language
en
Pages
62 + app. 72
Series
Aalto University publication series Doctoral Theses, 133/2025
Abstract
This thesis examines the evaluation and sampling techniques of data-driven image generators, a rapidly evolving research topic. With the growing number of models and applications, designing evaluation metrics is increasingly important for identifying improvements from specific modifications to model architectures or training setups. These metrics play a key role in advancing the field. First, we provide an in-depth analysis of widely used Fréchet Inception Distance (FID), highlighting the reasons behind discrepancies between model rankings and human judgments by examining its sensitivity to ImageNet classes, and discussing its implications for generative model evaluation. We then propose an improved precision and recall metric that separately quantifies the fidelity and diversity of generated samples through explicit, non-parametric representations of data distributions, offering a comprehensive assessment of generated distributions when used alongside existing metrics. In the context of diffusion models, this thesis investigates classifier-free guidance, a key factor in their success. We analyze the impact of guidance on the generated distribution when applied in various parts of the sampling process. We observe that guidance is only beneficial within a specific range of noise levels, while being harmful at the high and unnecessary at the low noise levels. Based on this insight, we propose a guidance interval, where we selectively apply guidance within a specific range of noise levels. Our method leads to at the time record FID on ImageNet-512, as well as qualitative improvements across different network architectures, including the large-scale text-to-image model Stable Diffusion XL.Tämä väitöskirja tutkii kuvia tuottavien, oppivien generatiivisten mallien laadunarviointi- ja näytteenottotekniikoita. Mallien ja sovellusten määrän kasvaessa laatumittarien suunnittelu on yhä tärkeämpää mallien paremmuusjärjestyksen määrittämiseksi, jotta mallien arkkitehtuuriin tai koulutusasetelmiin tehtyjen muutosten vaikutukset kuvajakaumaan voidaan tunnistaa. Ensin analysoimme yleisesti käytettyä Fréchet Inception Distance (FID) -mittaria ja selvitämme, miksi sen avulla arvioitu mallien paremmuusjärjestys ja ihmisten tekemät arvioinnit saattavat poiketa toisistaan. Tämä tapahtuu tarkastelemalla FID:n herkkyyttä ImageNet-kuvajoukon luokille. Tämän analyysin ohessa arvioimme havaintojemme vaikutuksia synteettisten mallien laadunarviointiin. Tämän jälkeen esitämme mittarin, jolla voidaan erikseen arvioida synteettisten kuvien uskottavuutta ja monimuotoisuutta eksplisiittisten, ei-parametristen jakaumaesitysten avulla. Tämä mahdollistaa synteettisten kuvajakaumien kattavamman tarkastelun yhdessä olemassa olevien mittarien kanssa. Diffuusiomallien kontekstissa tutkimme ohjausmenetelmää (Classifier-Free Guidance), joka on keskeinen tekijä näiden mallien menestyksessä. Analysoimme ohjauksen vaikutusta synteettiseen kuvajakaumaan, kun sitä käytetään eri vaiheissa näytteenottoprosessia. Havaintojemme mukaan ohjauksesta on hyötyä vain tietyllä kohinatasojen alueella, kun taas korkeilla kohinatasoilla se on haitallista ja matalilla kohinatasoilla tarpeetonta. Tämän havainnon pohjalta esittelemme ohjausvälin, jossa ohjausta käytetään valikoidusti vain tietyllä hyödyllisten kohinatasojen alueella. Menetelmämme saavutti julkaisuaikanaan FID-mittarilla mitattuna uuden ennätyksen sekä paransi kvalitatiivisia tuloksia eri verkkoarkkitehtuureilla, mukaan lukien suuren mittakaavan tekstistä kuvia syntetisoivalla Stable Diffusion XL -mallilla.Description
Supervising professor
Lehtinen, Jaakko, Prof., Aalto University, Department of Computer Science / NVIDIA, FinlandThesis advisor
Aila, Timo, Docent, NVIDIA, FinlandOther note
Parts
-
[Publication 1]: Tuomas Kynkäänniemi, Tero Karras, Miika Aittala, Timo Aila, and Jaakko Lehtinen. The Role of ImageNet Classes in Fréchet Inception Distance. In Proceedings of the 11th International Conference on Learning Representations (ICLR), 2023. https://urn.fi/URN:NBN:fi:aalto-202312117135.
DOI: 10.48550/arXiv.2203.06026 View at publisher
-
[Publication 2]: Tuomas Kynkäänniemi, Tero Karras, Samuli Laine, Jaakko Lehtinen, and Timo Aila. Improved Precision and Recall Metric for Assessing Generative Models. In Proceedings of the 33rd International Conference on Neural Information Processing Systems (NeurIPS), 2019.
DOI: 10.48550/arXiv.1904.06991 View at publisher
-
[Publication 3]: Tuomas Kynkäänniemi, Miika Aittala, Tero Karras, Samuli Laine, Timo Aila, and Jaakko Lehtinen. Applying Guidance in a Limited Interval Improves Sample and Distribution Quality in Diffusion Models. In Proceedings of the 38th International Conference on Neural Information Processing Systems (NeurIPS), 2024. https://urn.fi/URN:NBN:fi:aalto-202503263028.
DOI: 10.48550/arXiv.2404.07724 View at publisher