aalto1 untyped-item.component.html

Explainable machine learning in cancer survival prediction — A case study of myeloma patients

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Major/Subject

Mcode

Language

en

Pages

72

Series

Abstract

This thesis explores the application of explainable machine learning (ML) in the prediction of survival of myeloma patients. Particularly, we present a novel technique, the use of the explainable empirical risk minimisation (EERM) principle. We leveraged real-world data (RWD) from HUS, which is standardised according to the Observational Medical Outcomes Partnership (OMOP) Common Data Model (CDM) and we ran the analysis in the secure Acamedic environment. The features for training the ML models comprised age at diagnosis and 10 common blood measurements over 21 time points (days). Pre-processing techniques were applied for handling the missing values and reducing the dimensionality of the data. Multiple datasets were used and they differed in their labels (binary five-year survival or time-to-event) or in the number of features (all 21 timepoints or they are aggregated into four time periods). Four initial models were trained using three ML algorithms: CatBoost, XGBoost and DeepHitSingle. The CatBoost models were trained on the 5-year survival label (one with the original data where the timepoints are not aggregated and one on the reduced data with the four time periods). The other two models were trained on a time-to-event label. Explainability was obtained for the initial models using post-hoc methods. A final model, an artificial neural network (ANN), was trained with the binary 5-year survival label using the EERM principle. An auxiliary logistic regression model trained on three features was used as a user signal and a regularization term in the ANN shifted the predictions towards those of the auxiliary model. This technique enables the possibility to incorporate human (medical) expertise into the training of a model. The features used in the auxiliary model were selected from the explainability results of the initial models: age at diagnosis, hemoglobin at time period 3 and platelets at time period 4. These features are also known prognosis factors in myeloma. For training the ANN, multiple values of the regularization coefficient $\alpha$ were tested and a value of $\alpha = 1$ is selected. For assessing the performance of our models, an internationally recognised method for myeloma staging, the revised international staging system (R-ISS), was used for baseline comparison. p-values of pairwise log rank tests were compared for three groups of data points stratified based on the predictions of the models. Accuracy, balanced accuracy and recall were also evaluated for the models using a binary label. The ANN model attained an accuracy of 0.705 on the test set, which is similar to those obtained with CatBoost, respectively 0.681 and 0.708 for the original data and the reduced data. The explainability score, which is measured as the share of data points that share their prediction between the ANN and the auxiliary model, attained 0.902 on the test set. This implies a high agreement between the predictions of the two models. Furthermore, the p-value obtained on the test set on the ANN model for the extremity groups (i.e., the group with the lowest predicted survival and the one with the highest predicted survival), $1.41\cdot 10^{-22}$, is lower than for all other models or R-ISS staging. The ANN, which leverages the EERM principle, achieved competitive results in both performance and interpretability.

Tässä opinnäytetyössä käsitellään selitettävän koneoppimisen soveltamista myeloomapotilaiden eloonjäämisen ennustamiseen hyödyntäen Helsingin ja Uudenmaan sairaanhoitopiirin (HUS) tosielämän potilastietoja (real-world data, RWD) tietoturvallisessa Acamedic-analyysiympäristössä käsiteltynä. Työssä tutkitaan uudenlaista koneoppimismenetelmää, joka perustuu selitettävään empiiriseen riskiminimointiin (explainable empirical risk minimisation, EERM) periaatteeseen. Käytettyihin muuttujiin kuuluivat ikä sairauden diagnoosihetkellä sekä kymmenen yleistä veriarvomittausta 21 eri aikapisteessä (päivässä). Eri esikäsittelymenetelmiä käytettiin puuttuvien arvojen käsittelemiseksi sekä datan moniulotteisuuden pienentämiseksi. Datajoukkoja oli useita, jotka erosivat luokittelulla (binäärinen viiden vuoden eloonjääminen tai aika-taphtuma) ja muuttujien määrällä (kaikki 21 aikapistettä tai ne on yhdistelty neljään aikaperiodiin). Neljä alkuperäistä mallia koulutettiin kolmella koneoppimisalgoritmilla (CatBoost, XGBoost ja DeepHitSingle). CatBoost mallit koulutettiin viiden vuoden eloonjäämisluokalla (toinen alkuperäisellä datalla, jossa aikapisteitä ei ole yhdistetty, ja toinen pienemmällä datajoukolla, jossa on neljä aikaperiodia). Kaksi muuta mallia koulutettiin pienemmällä datalla aika-tapahtumaluokittelulla. Selitettävyys saatiin alkuperäisille malleille jälkikäteen tehtävillä (post-hoc) menetelmillä. Lopullinen malli, neuroverkko, koulutettiin binäärisellä viiden vuoden eloonjäämisluokittelulla käyttäen EERM-periaatetta. Apumallina käytetty logistinen regressiomalli koulutettiin kolmella piirteellä. Se toimii käyttäjäsignaalina, ja neuroverkon säännöllistämistermi ohjasi ennusteita lähemmäksi apumallin ennusteita. Tämä menetelmä mahdollistaa (lääketieteellisen) ihmistietämyksen sisällyttämisen koneoppimismallin kouluttamiseen. Apumalliin käytettävät piirteet valittiin alkuperäisten mallien selitettävyyden tuloksista: ikä diagnoosihetkellä, veren hemoglobiini kolmannella aikaperiodilla ja verihiutaleet neljännellä aikaperiodilla. Nämä ovat tunnettuja eloonjämisennusteen tekijöitä myeloomapotilailla. Neuroverkon kouluttamiseen testattiin useita arvoja säännöllistämiskertoimelle $\alpha$ ja arvo $\alpha = 1$ valittiin. Mallien suorituskyvyn arvioimiseksi käytettiin kansainvälisesti yleisesti käytettyä menetelmää myelooman riskiluokitteluun (R-ISS, revised international staging system). Pareittain tehtyjen log-rank-testausten p-arvoja verrattiin kolmen datapisteiden ryhhmällä, jotka on jaoteltu koneoppimismallien ennusteiden perusteella. Binäärisen luokan tapauksessa malleille käytettiin myös tarkkuutta, tasapainotettua tarkkuutta ja herkkyysarvoa (recall). Neuroverkkomalli saavutti testijoukossa tarkkuuden 0,705, joka on lähellä CatBoost-mallien saamia arvoja, 0,681 alkuperäisellä datalla ja 0,708 pienennetyllä datalla. Selitettävyysmittari lasketaan datapisteiden osuuden perusteella, jotka jakavat ennusteensa neuroverkko- ja apumallin välillä, ja se on testijoukossa 0,902. Tämä merkitsee yhtäläisyyttä neuroverkon ja apumallin välillä. Lisäksi testijoukon p-arvo neuroverkkomallille laitaryhmien (eli ryhmä, jolla on matalin ennustettu eloonjääminen, ja ryhmä, jolla on korkein ennustettu eloonjääminen) osalta, $1,41\cdot 10^{-22}$, oli pienempi kuin kaikilla muilla malleilla tai R-ISS-asteikolla. Neuroverkkomalli, joka hyödyntää EERM-periaatetta, saavutti suorituskyvyltään ja selitettävyydeltään kilpailukykyiset tulokset.

Description

Supervisor

Jung, Alex

Thesis advisor

Fey, Eric
Bozorgpanah, Aso

Other note

Citation

Endorsement

Review

Supplemented By

Referenced By