Uncertainty Quantification in Deep Learning

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Science | Doctoral thesis (article-based) | Defence date: 2023-12-15
Date
2023
Major/Subject
Mcode
Degree programme
Language
en
Pages
76 + app. 68
Series
Aalto University publication series DOCTORAL THESES, 196/2023
Abstract
Deep learning has recently become a popular method for solving problems involving large data sets, and in many applications, human performance has been exceeded. However, deep learning models tend to be overconfident in their predictions, especially when encountering new input samples that differ from anything the model has learned during training. This thesis aims to address this problem by developing uncertainty quantification techniques that allow deep learning models to recognise the limits of their capabilities better and when they should be uncertain in their predictions. Improved uncertainty quantification would enable deep learning models to be used in safety-critical applications that require reliable uncertainty estimates. Uncertainty quantification is improved through a Bayesian perspective, and making connections between neural networks and Gaussian processes is at the core of this research. Gaussian processes are principled Bayesian models that are known to provide reliable uncertainty estimates for their predictions, and the aim is to bring these desirable properties to deep learning models. Another key benefit of Gaussian processes in terms of uncertainty quantification is the possibility of including prior assumptions into the model through a covariance function. The results in this thesis show that similar prior assumptions can be induced into deep learning models through activation functions. This allows neural networks to replicate stationary Gaussian process behaviour with a Matérn covariance. This result fills a gap in research connecting Gaussian processes and neural networks that has existed for over twenty years. Matérn covariance is arguably the most used covariance function in Gaussian processes, making this result impactful. This thesis considers two distinct parts contributing to uncertainty quantification: 1. encoding meaningful priors and 2. approximate inference. The main focus is on meaningful priors, but approximate inference is also focused on, as it is required to use Bayesian deep learning models in practice. Publications in this thesis show theoretical results that progress uncertainty quantification through model design, which allows the encoding of conservative behaviour into the model. In addition, this thesis tackles the problem of increasing size and computational requirements of modern deep learning models. This is also done with uncertainty quantification methods by applying them to dynamic neural networks that attempt to achieve improved performance for a limited computational budget. Computationally efficient uncertainty quantification methods that fit into the computationally restricted regime of dynamic neural networks are introduced. The results show that uncertainty quantification improves decision-making in dynamic neural networks, which leads to better predictive performance. This means high performance is achieved at a lower computational cost, making high-end deep learning models available on hardware with limited computational capacity, such as mobile devices. Improving dynamic neural network performance also helps decrease the energy consumption of large deep learning models.

Syväoppimisesta on tullut suosittu menetelmä monimutkaisten ongelmien ratkaisemiseen, kun käytettävissä on suuri määrä dataa. Monissa sovelluksissa syväoppimismallit ovat jo ylittäneet ihmisten suorituskyvyn. Syväoppimismallit ovat kuitenkin usein yli-itsevarmoja ennusteidensa paikkansapitävyydestä, erityisesti kohdatessaan syötteitä, jotka eroavat suuresti mallin koulutuksen aikana kohtaamista syötteistä. Tämän väitöskirjan tavoitteena on etsiä ratkaisuja tähän ongelmaan kehittämällä epävarmuuden määrittämistekniikoita, jotka auttavat näitä malleja tunnistamaan toimintakykynsä rajat, sekä milloin mallien tulisi olla epävarmoja ennusteistaan. Tämä mahdollistaa mallien käytön turvallisuuskriittisissä sovelluksissa, jotka vaativat luotettavia epävarmuusarvioita. Epävarmuuden arvioinnin kehittäminen tehdään bayesilaisen näkökulman kautta luomalla yhteyksiä neuroverkkojen ja gaussisten prosessien välille. Gaussiset prosessit ovat bayesilaisia malleja, jotka antavat tunnetusti luotettavia epävarmuusarvioita ennusteilleen. Tavoitteena on tuoda näitä toivottuja ominaisuuksia syväoppimismalleihin. Toinen gaussisten prosessien tarjoama hyöty on mahdollisuus sisällyttää ennakko-oletuksia mallin käyttäytymisestä kovarianssifunktion kautta. Tämä väitöskirja osoittaa, että samanlaisia ennakko-oletuksia voidaan sisällyttää syväoppimismalleihin aktivaatiofunktioiden kautta. Tällöin neuroverkon käyttäytyminen saadaan vastaamaan stationaarista gaussista prosessia Matérn-kovarianssilla. Tämä teoreettinen tulos täydentää gaussisten prosessien ja neuroverkkojen välisten yhteyksien tutkimuksessa yli kaksikymmentä vuotta olleen aukon, mikä on merkittävää, sillä Matérn-kovarianssia pidetään eniten käytettynä kovarianssifunktiona gaussisissa prosesseissa. Tämä väitöskirja jakaa epävarmuuden arvioinnin kahteen osa-alueeseen: 1. hyödyllisten ennakko-oletusten luomiseen ja 2. likimääräiseen tilastolliseen päättelyyn. Päätavoitteena ovat hyödylliset ennakko-oletukset, mutta myös tilastollinen päättely otetaan huomioon, sillä se on välttämätöntä bayesilaisten syväoppimismallien soveltamisessa käytäntöön. Tämän väitöskirjan julkaisut luovat teoreettisia tuloksia, jotka mahdollistavat syväoppimismalleille konservatiivisen käytöksen. Lisäksi tehdyllä tutkimuksella vastataan modernien neuroverkkojen vaatiman laskentatehon ja koon kasvun aiheuttamiin ongelmiin. Myös tämä tehdään epävarmuuden arviointitekniikoita käyttäen, soveltamalla niitä dynaamisiin neuroverkkoihin, jotka pyrkivät saavuttamaan parhaan mahdollisen suorituskyvyn rajallisella laskentabudjetilla. Tutkimuksen tuloksena esitetään laskennallisesti kustannustehokkaita epävarmuuden arviointimenetelmiä, jotka soveltuvat käytettäviksi dynaamisissa neuroverkoissa. Saadut tulokset osoittava, että epävarmuuden arviointitekniikat parantavat päätöksentekoa dynaamisissa neuroverkoissa, mikä johtaa parempiin ennusteisiin. Näin voidaan saavuttaa korkeampi suorituskyky pienemmällä laskennallisella budjetilla, mikä mahdollistaa modernien syväoppimismallien käytön rajatulla laskentateholla esimerkiksi mobiililaitteissa ja auttaa vähentämään suurten syväoppimismallien energiankulutusta.
Description
Supervising professor
Solin, Arno, Prof., Aalto University, Department of Computer Science, Finland
Thesis advisor
Solin, Arno, Prof., Aalto University, Department of Computer Science, Finland
Keywords
uncertainty quantification, Bayesian deep learning, gaussian processes, epävarmuuden arviointi, bayesilainen syväoppiminen, gaussiset prosessit
Other note
Parts
  • [Publication 1]: Lassi Meronen, Christabella Irwanto, and Arno Solin. Stationary Activations for Uncertainty Calibration in Deep Learning. In Advances in Neural Information Processing Systems 33 (NeurIPS), pages 2338–2350, December 2020
  • [Publication 2]: Lassi Meronen, Martin Trapp, and Arno Solin. Periodic Activation Functions Induce Stationarity. In Advances in Neural Information Processing Systems 34 (NeurIPS), pages 1673–1685, December 2021. https://urn.fi/URN:NBN:fi:aalto-202202091804.
  • [Publication 3]: Lassi Meronen, William J. Wilkinson, and Arno Solin. Movement Tracking by Optical Flow Assisted Inertial Navigation. In Proceedings of the IEEE 23rd International Conference on Information Fusion (FUSION), Rustenburg, South Africa, July 2020.
    DOI: 10.23919/FUSION45008.2020.9190586 View at publisher
  • [Publication 4]: Lassi Meronen, Martin Trapp, Andrea Pilzer, Le Yang, and Arno Solin. Fixing Overconfidence in Dynamic Neural Networks. In Proceedings of the 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Waikoloa, Hawaii, January 2024
Citation