Visual explanations of neural network predictions

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Bachelor's thesis

Department

Mcode

ELEC3016

Language

en

Pages

37

Series

Abstract

Artificial intelligence and machine learning (ML) are characterized by rapidly advancing research. ML revolves around developing systems that learn from data and perform tasks without specific instruction. Today, neural networks (NNs), especially convolutional neural networks (CNNs), prevail as leading ML methods proven effective at computationally complex tasks, including image classification, object detection, and language processing. A significant challenge in wider application of NNs is the inherent lack of transparency in how their predictions are processed resulting from their complicated functionality and structure. Alleviating the transparency problem of NNs constitutes the purpose of explainable ML which involves developing methods that explain the logic of a trained ML model. This study investigates visual explanation methods for CNNs that produce heatmaps depicting the importance of data features to the model’s prediction. This literature review inspects the mechanics of CNNs, key concepts of explainable ML, and the value of visual explanations. The study then compares two state-of-the-art explanation methods: gradient-weighted class activation mapping (Grad-CAM) and layer-wise relevance propagation (LRP). They feature prominently in research literature and prevail as clear and applicable solutions to explain CNN predictions. The objective of this study is to formulate a literature-based paradigm to evaluate the quality of Grad-CAM and LRP explanations. Research demonstrates that Grad-CAM excels at class-specificity while remaining computationally lightweight and applicable to most CNN architectures. Its explanations, however, lack fine details, and are not produced according to the model’s predictive logic. Conversely, LRP produces detailed pixel-level distributions and exhibits greater fidelity to the ML model. Compared to Grad-CAM, LRP’s main disadvantages include lower localization accuracy, and increased computational complexity. Consequently, Grad-CAM is more suited to applications featuring large datasets and several distinct classes, whereas LRP suits applications where sensitivity to minute details is required.

Tekoäly ja koneoppiminen sen alaluokkana ovat nopeasti ja aktiivisesti kehittyviä tietotekniikan tutkimusaloja. Koneoppimisen tarkoitus on kehittää järjestelmiä, jotka kykenevät oppimaan annetusta datasta ja laskemaan tästä tuloksia ilman erillistä ohjeistusta. Monitahoiset neuroverkot, kuten konvoluutioneuroverkot, ovat tällä hetkellä johtavia tehokkaita toteutuksia tähän tehtävään. Konvoluutioneuroverkkojen sovelluksista on toteutettu kattavaa tutkimusta. Menetelmä on todettu vaikuttavaksi laskennallisesti monimutkaisissa tehtävissä, kuten kuvien luokituksessa, hahmontunnistuksessa sekä kielen käsittelyssä. Merkittävä haaste neuroverkkojen poikkitieteelliseen hyödyntämiseen on niille ominainen avoimuuden puute ennusteiden käsittelyssä. Neuroverkkojen monimutkainen, kerroksinen rakenne tekee niiden valvomisesta ja tulosten varmentamisesta haastavaa. Usein on ongelmallista päätellä tarkalleen, mitkä tekijät vaikuttivat neuroverkon tuloksiin. Selitettävä tekoäly on ala, joka pyrkii ratkaisemaan neuroverkkojen läpinäkyvyysongelman kehittämällä menetelmiä, jotka kykenevät selittämään ennalta koulutetun koneoppimismallin päätöksentekoa ja antamaan lisätietoa käytetystä datasta. Tämän tutkimuksen erityiskohteena ovat konvoluutioneuroverkkoihin soveltuvat visuaaliset selitysmenetelmät, kuten gradienttipainotettu luokka aktivaatiokartoittaminen (engl. gradient-weighted class activation mapping, Grad-CAM), jotka tuottavat tiheyspintakarttoja datapisteiden painoarvosta mallin tuloksiin. Tämä opinnäytetyö on kirjallisuustutkimus, jossa perehdytään konvoluutioneuroverkkojen rakenteeseen ja toiminnallisiin perusteisiin sekä selitettävän tekoälyn alan periaatteisiin ja visuaalisten selitysmenetelmien hyötyihin. Näiden pohjalta perehdytään viimeisintä tekniikkaa edustaviin ratkaisuihin, joilla tuotetaan visuaalisia selityksiä koulutetun konvoluutioneuroverkon ennusteille. Tutkimuksessa tarkastellaan Grad-CAM- sekä kerroksittaista merkitysleviämismenetelmää (engl. layer-wise relevance propagation, LRP), jotka ovat tämän tutkimuksen lähdekirjallisuudessa osoitettu eräiksi alan selkeimmiksi ja sovelluskelpoisimmiksi ratkaisuiksi. Tässä tutkimuksessa tutustutaan menetelmien käyttötapauksiin muun muassa sydäninfarktien ennustamisessa, vahingon arvioinnissa luonnononnettomuuden seurauksena ja monimutkaisten atomitason rakenteiden materiaalianalyysissä. Työn tavoitteena on tuottaa ohjeistava yleiskatsaus konvoluutioneuroverkkoihin soveltuvista visuaalisista selitysmenetelmistä sekä arvioida selitysten laatua alan kirjallisuuteen perustuvan paradigman perusteella. Tutkimus osoittaa, että Grad-CAM-menetelmän vahvuuksiin kuuluu sen luokkaspesifisyys, verrattain kevyt laskennallinen kuormitus ja ratkaisun yleispätevyys. Grad-CAM kykenee tarkasti erittelemään datassa esiintyviä luokkia, ja sen tuottamia tiheyskarttaselityksiä on helppo tulkita. Grad-CAM on rakenteellisesti yleinen ja soveltuu valtaosaan konvoluutioneuroverkoista. Menetelmän erottelukyky on kuitenkin lähtökohtaisesti epätasainen. Lisäksi menetelmän perusta –aktivaatiogradientin laskeminen yhden verkon kerroksen perusteella – ei ole uskollinen varsinaisen koneoppimismallin toiminalle. LRP puolestaan tuottaa tarkkoja pistetason jakaumia ja edustaa varsinaisen koneoppimismallin toimintaa tarkemmin. Laskennallisesti LRP summaa neuroverkon signaaleja, jotka johtavat ennusteeseen, ja tuottaa tarkan kuvan eri tekijöiden vaikutuksista. LRP on kuitenkin kuormitukseltaan raskaampi kuin Grad-CAM. Lisäksi menetelmän varmuus ennustetun luokan tunnistamisessa on Grad-CAM-menetelmää heikompi. Grad-CAM voidaan todeta hyvin yleispäteväksi ratkaisuksi luokitus- ja tunnistustehtäviin, kun taas LRP on suotavampi ratkaisu sovelluksiin, missä tavoitellaan yksityiskohtaista tietoa datasta ja neuroverkon toiminnasta.

Description

Supervisor

Turunen, Markus

Thesis advisor

Mińkowski, Marcin

Other note

Citation