Evaluating the Benefits of Formal and Heuristic Explanations in Machine Learning

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Mcode

Language

en

Pages

49

Series

Abstract

This thesis evaluates the strengths and weaknesses of formal and heuristic explanations for machine learning models. We conduct experiments that can be divided into three categories. First, we investigate how often we get so-called abductive or contrastive explanations using heuristic methods. Second, we investigate whether a preprocessing step called feature sorting decreases the average size of an abductive or constrastive explanation computed using the well-known deletion algorithm. Third, we investigate the similarities between so-called feature attribution explanations. The first and third categories are based on previous research, but we introduce several improvements. We consider more explanation methods than related work, and we describe all used methods in detail. While previous papers use unsigned LIME and SHAP attribution values, we show that signed LIME and SHAP values are better when the goal is to compute abductive or contrastive explanations. Furthermore, we show that in previous definitions for formal feature attribution, shorter explanations are not given enough weight. To fix this problem, we introduce a new method called lexicographic formal feature attribution. Perhaps the most practical experimental result is that feature sorting with LIME can efficiently decrease the average size of an abductive explanation computed using the deletion algorithm.

Tässä työssä tutkitaan koneoppimismallien selittämistä formaaleilla ja heuristisilla menetelmillä, sekä näiden menetelmien vahvuuksia ja heikkouksia. Teemme kokeita, jotka voidaan jakaa kolmeen kategoriaan. Ensimmäiseksi tutkimme, kuinka usein saamme nk. abduktiivisen tai kontrastiivisen selityksen käyttäen heuristisia menetelmiä. Toiseksi tutkimme erästä esiprosessointiaskelta, ja selvitämme, lyhentääkö se keskimääräisen abduktiivisen tai kontrastiivisen selityksen kokoa. Kolmanneksi tutkimme, kuinka paljon erilaiset nk. attribuutioselitykset eroavat toisistaan. Ensimmäinen ja kolmas kategoria pohjautuvat aikaisempiin tutkimuksiin, mutta esitämme useita parannuksia. Tutkimme suurempaa joukkoa menetelmiä kuin muissa vastaavissa tutkimuksissa, ja selitämme käytetyt menetelmät yksityiskohtaisesti. Muissa tutkimuksissa käytetään etumerkittömiä LIME ja SHAP -attribuutioarvoja, mutta osoitamme, että etumerkilliset arvot toimivat paremmin, kun tarkoitus on laskea abduktiivisia tai kontrastiivisia selityksiä. Lisäksi osoitamme, että aiemmissa tutkimuksissa määritellyt formaalit attribuutioselitykset eivät painota selityksen kokoa riittävästi. Ratkaisemme tämän ongelman esittelemällä nk. leksikografiset formaalit attribuutioselitykset. Työn kenties käytännöllisin kokeellinen tulos on havainto siitä, että esittämämme esiprosessointi LIMEn avulla laskee tehokkaasti keskimääräisen abduktiivisen selityksen kokoa.

Description

Supervisor

Rintanen, Jussi

Thesis advisor

Lehtonen, Tuomo

Other note

Citation