Methods and Tools for Interpretable Bayesian Variable Selection

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2018-08-20

Department

Major/Subject

Machine Learning and Data Mining (Macadamia)

Mcode

SCI3044

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

53+4

Series

Abstract

This thesis discusses interpretability in model selection. It considers some of the central themes of interpretable models and introduces a new tool, shinyproj, to improve interpretability in variable selection. shinyproj is a new R package for interpretable Bayesian model selection for generalised linear models. shinyproj emphasises a modern workflow for variable selection, in which the properties of the models are examined iteratively with a guidance of an efficient variable selection algorithm. The need for the package is motivated especially by the increasing demands for transparent and interpretable models, which are also discussed in this thesis. The problem is that in order to increase the performance of the model, one often has to increase the complexity of the model, which in turn will often reduce the interpretability of the model. shinyproj combines an existing R package for projection predictive variable selection with an interface that allows the user to explore the model space and make informed and efficient tradeoffs between the accuracy and the interpretability of the model. While the current functionality of the package does not constitute a conclusive solution to the problem, it serves as a proof-of-concept and likely a good basis for future improvements.

Tämä työ tarkastelee tulkittavaa bayesiläistä mallinvalintaa. Yhtäältä työssä tarkastellaan tekijöitä, jotka tekevät malleista tulkittavia, mutta toisaalta työssä esitetään myös uusi työkalu, shinyproj, joka tekee lisäksi itse mallinvalintaprosessista ymmärrettävän. shinyproj on uusi R paketti tulkittavaan bayesiläiseen mallinvalintaan yleisestetyille lineaarimalleille (generalized linear models). shinyproj korostaa moderneja työskentelytapoja, jossa mallin ominaisuuksia tarkastellaan iteratiivisesti tehokkaan muuttujanvalinta-algoritmin tuella. Tulkittavien ja ymmärrettävien mallien tarve on noussut erityisesti viime aikoina, kun yhtäältä malleja käytetään enemmän ja enemmän osana päätöksentekoa, mutta toisaalta juuri siitä syystä malleilta vaaditaan myös läpinäkyvyyttä ja tulkittavuutta. Ongelmana on pohjimmiltaan se, että mitä paremmin mallin halutaan suoriutuvan, sitä monipuolisempi ja yksityiskohtaisempi sen on vääjäämättä oletava. Monipuolisuus ja yksityiskohtaisuus taas tekevät mallista väkisinkin vaikeammin tulkittavan ja ymmärrettävän. shinyproj yhdistää olemassaolevan tehokkaan parametrien projisoimiseen perustuvan muuttujanvalinta-paketin yksinkertaiseen graafiseen käyttöliittymään, joka helpottaa malli-avaruuden läpikäymistä ja siten mahdollistaa informoitujen ja tehokkaiden vaihtokauppojen tekemisen mallin suorituskyvyn ja tulkittavuuden välillä. Vaikka nykyisellään paketti ei ratkaisekkaan tyhjentävästi kaikkia tulkittavaan mallinvalintaan liittyviä ongelmia, se tarjoaa siihen yhden käyttökelpoisen ratkaisun ja toimii esimerkkinä siitä, minkälaisia ratkaisuja ongelmaan voi tulevaisuudessa tarjota.

Description

Supervisor

Vehtari, Aki

Thesis advisor

Vehtari, Aki

Keywords

Bayesian model selection, interpretable models, variable selection, forward selection, projection

Other note

Citation