Interactive Knowledge Elicitation for Decision-Support Models in Precision Medicine

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Science | Doctoral thesis (article-based) | Defence date: 2023-06-20
Date
2023
Major/Subject
Mcode
Degree programme
Language
en
Pages
76 + app. 90
Series
Aalto University publication series DOCTORAL THESES, 78/2023
Abstract
This thesis develops human-in-the-loop machine learning methods that aim at improving the performance of a machine learning model in precision medicine tasks. Many problems in precision medicine are still difficult for machine learning due to lack of data, and human experts' knowledge can provide a valuable source of information to reduce a model's prediction error and uncertainty. Such expert knowledge elicitation requires methods that address the following problems: How to leverage indirect expert knowledge instead of querying labels as in active learning, how to make the interaction less laborious to the expert than in traditional prior elicitation, and how to select the interaction so that it is the most beneficial to the prospective task of the model. The first contribution of the thesis is to develop an interactive knowledge elicitation method for "small n large p" problems where data is insufficient, that allows even a small amount of sequentially chosen noisy, indirect feedback from an expert to complement the data and improve the accuracy of the model's predictions. The effectiveness of the method is evaluated in a user-study. The method is further extended to a high-dimensional genomics prediction task where we demonstrate, for the first time, how sequentially selected domain expert's feedback improves personalized prediction of the cancer cell's sensitivity to drugs. The second main contribution of the thesis is to introduce two goal-oriented data acquisition strategies that aim at selecting queries that are maximally useful for a prospective task where the model is to be used: First, targeted Bayesian optimal experimental design to increase the accuracy of a single personalized prediction, and second, active learning that takes the down-the-line decision-making task into account by modeling the probability of a wrong decision. The last part of this thesis applies human-in-the-loop methods to a new, promising and yet unexplored application domain of de novo molecular design. The last contribution is how the goal of molecule generation can be inferred via human-in-the-loop interaction, to make an adaptive objective function to a reinforcement learning algorithm, so that the resulting system generates more molecules that match the user's goal.

Tässä väitöskirjassa kehitetään vuorovaikutteisia koneoppimismenetelmiä, joilla pyritään parantamaan koneoppimismallin suorituskykyä täsmälääketieteen tehtävissä. Monet täsmälääketieteen ongelmat ovat edelleen vaikeita koneoppimiselle datan puutteen vuoksi, mutta asiantuntijoiden näkemys tarjoaa arvokkaan tietolähteen, jolla voidaan vähentää mallien ennustevirhettä ja epävarmuutta. Tällaisen asiantuntijatiedon hankkiminen edellyttää menetelmiä, jotka ratkaisevat seuraavat ongelmat: Miten hyödyntää myös epäsuoraa asiantuntijatietoa sen sijaan, että ihminen paljastaa mallille oikeat vastaukset kuten aktiivioppimisessa, miten tehdä vuorovaikutuksesta asiantuntijalle vähemmän työlästä kuin perinteinen priorijakaumien määrittely, ja miten valita asiantuntijalle esitettävät kysymykset siten, että niistä on eniten hyötyä mallin tulevan tehtävän kannalta. Väitöskirjassa kehitetään interaktiivinen menetelmä asiantuntijatiedon tuomiseen malliin, jolla voidaan ratkaista ns. "pieni n suuri p" -ongelmia, joissa dataa ei ole riittävästi. Menetelmän avulla pienikin määrä aktiivisesti valittua asiantuntijan antamaa palautetta parantaa mallin ennusteiden tarkkuutta kun se yhdistetään data-analyysiin. Menetelmän tehokkuus osoitetaan käyttäjätutkimuksessa. Tämä menetelmä laajennetaan myös korkeaulotteiseen genomiikan ennustustehtävään ja näytetään ensimmäistä kertaa, että asiantuntijan palaute parantaa yksilöllisiä ennusteita syöpäsolujen lääkeherkkyydestä. Väitöskirjan toinen keskeinen tulos on kahden tavoitteellisen aktiivioppimisstrategian kehittäminen, joilla pyritään valitsemaan asiantuntijalle esitettävät kysymykset niin, että ne ovat mahdollisimman hyödyllisiä tehtävässä, jossa koneoppimismallia on tarkoitus käyttää. Ensimmäinen menetelmä on kohdennettu Bayesilainen optimaalinen koesuunnittelu, jolla pyritään lisäämään yksittäisen yksilöllistetyn ennusteen tarkkuutta. Toinen on päätöksentekoon keskittyvä aktiivioppimismenetelmä, joka ottaa huomioon edessä olevan päätöksentekotehtävän mallintamalla väärän päätöksen todennäköisyyden ja minimoimalla sitä. Väitöskirjan viimeisessä osassa sovelletaan vuorovaikutteisia koneoppimismenetelmiä uuteen, lupaavaan ja vielä tutkimattomaan sovellusalueeseen, de novo -molekyylisuunnitteluun. Tuloksena on menetelmä, jossa algoritmi vuorovaikuttaa kemistin kanssa ja päättelee tämän palautteen perusteella molekyylisuunnittelutehtävän tavoitteen. Tällöin vahvistusoppimisalgoritmille voidaan luoda adaptiivinen tavoitefunktio niin, että järjestelmä tuottaa enemmän kemistin tavoitetta vastaavia molekyylejä.
Description
Supervising professor
Kaski, Samuel, Prof., Aalto University, Department of Computer Science, Finland
Thesis advisor
Kaski, Samuel, Prof., Aalto University, Department of Computer Science, Finland
Keywords
interactive machine learning, human-in-the-loop, Bayesian modeling, interaktiivinen koneoppiminen, ihminen silmukassa, Bayesilainen mallinnus
Other note
Parts
  • [Publication 1]: Luana Micallef, Iiris Sundin, Pekka Marttinen, Muhammad Ammaduddin, Tomi Peltola, Marta Soare, Giulio Jacucci, and Samuel Kaski. Interactive elicitation of knowledge on feature relevance improves predictions in small data sets. In Proceedings of the 22nd International Conference on Intelligent User Interfaces (IUI ’17), Limassol, Cyprus, pp. 547–552, March 2017.
    DOI: 10.1145/3025171.3025181 View at publisher
  • [Publication 2]: Iiris Sundin, Tomi Peltola, Luana Micallef, Homayun Afrabandpey, Marta Soare, Muntasir Mamun Majumder, Pedram Daee, Chen He, Baris Serim, Aki Havulinna, Caroline Heckman, Giulio Jacucci, Pekka Marttinen, and Samuel Kaski. Improving genomics-based predictions for precision medicine through active elicitation of expert knowledge. Bioinformatics, Volume 34, Issue 13, pp. i395–i403, July 2018.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201808014342
    DOI: 10.1093/bioinformatics/bty257 View at publisher
  • [Publication 3]: Iiris Sundin, Peter Schulam, Eero Siivola, Aki Vehtari, Suchi Saria, and Samuel Kaski. Active Learning for Decision-Making from Imbalanced Observational Data. In Proceedings of the 36th International Conference on Machine Learning, Long Beach, United States, PMLR 97, pp. 6046-6055, June 2019.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201907304532
  • [Publication 4]: Louis Filstroff, Iiris Sundin, Petrus Mikkola, Aleksei Tiulpin, Juuso Kylmäoja, and Samuel Kaski. Targeted Active Learning for Bayesian Decision-Making. Submitted to a journal, 24 pages, February 2022
  • [Publication 5]: Iiris Sundin, Alexey Voronov, Haoping Xiao, Kostas Papadopoulos, Esben Jannik Bjerrum, Markus Heinonen, Atanas Patronov, Samuel Kaski, Ola Engkvist. Human-in-the-Loop Assisted de Novo Molecular Design. Journal of Cheminformatics, 14, 86, December 2022.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-202301181247
    DOI: 10.1186/s13321-022-00667-8 View at publisher
Citation