Learning interpretable predictive biomarkers from multi-omics data

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2023-10-09

Department

Major/Subject

Bioinformatics and Digital Health

Mcode

SCI3092

Degree programme

Master’s Programme in Life Science Technologies

Language

en

Pages

54+3

Series

Abstract

Advancements in technologies that generate large-scale omics data and the develop- ment of machine learning methods to analyze this data provide new opportunities for the field of medicine, such as improved prevention, diagnosis and treatment of diseases through the application of multivariate biomarkers. Moreover, multi- variate biomarkers offer opportunities for precision medicine where treatments can be tailored to the needs of individual patients. Multivariate biomarker discovery which involves the prediction of clinical outcomes reproducibly using a small set of biomarkers, has emerged as a promising approach. However, from a machine learning perspective, the integration of multi-omics data to discover multi-omics biomarkers remains challenging. In addition, interpretability and explainability are key issues in the translation of models into clinical practice. Recently proposed group of kernel methods called sparse pre-image kernel machines has an embedded feature selection and offers improved interpretability compared to traditional kernel methods. Another benefit for learning multi-omics biomarkers is that sparse pre-image kernel machines can be extended to multi-view learning. This thesis explores the application of sparse pre-image kernel machines to multivariate biomarker discovery using a multi-omics coronavirus disease 2019 data set. To study whether the stability of feature selection can be improved, this thesis couples a method known as stability selection with sparse pre-image kernel machines. The stability of feature selection and model performance with the selected features are compared to two baseline methods, random forest and logistic regression. This thesis considers two types of feature selection pipelines for sparse pre-image kernel machines, where the first is a general grid search approach to select a level of regularization, and thus features. In the second pipeline, sparse pre-image kernel machines is combined with stability selection. Results show that stability selection improves the stability of the learned features significantly. In addition, the proposed multi-view approach learns a more balanced set of features compared to other methods in terms of learning features from both views. The findings of this thesis provide insights into the potential application of sparse pre-image kernel machines for the discovery of multi-omics biomarkers in complex diseases.

Teknologiset edistysaskeleet omiikkateknologioissa ja koneoppimismenetelmissä tarjoavat uusia mahdollisuuksia lääketieteelle, kuten mahdollisuuksia sairauksien ennaltaehkäisyyn, diagnosointiin ja hoitoon hyödyntäen monimuuttujabiomarkkereita. Monimuuttujabiomarkkerit tarjoavat myös mahdollisuuksia täsmälääketieteelle, jossa hoidot voidaan sovittaa yksittäisten potilaiden tarpeisiin. Monimuuttujabiomarkkerimalleilla voidaan ennustaa kliinisiä muutoksia toistettavasti pienellä määrällä biomarkkereita. Koneoppimisen näkökulmasta multiomiikkadatan yhdistäminen biomarkkereiden oppimiseksi on kuitenkin edelleen haastavaa. Lisäksi mallien tulkittavuus ja selitettävyys ovat keskeisiä kysymyksiä siirrettäessä malleja kliiniseen käyttöön. Vastikään kehitetty joukko kernelmenetelmiä nimeltään harvat alkukuvakernelkoneet sisältävät sisäisen muuttujienvalintamenetelmän, ja ne ovat skaalautuvampia ja tulkittavampia kuin perinteiset kernelmenetelmät. Harvat alkukuvakernelkoneet voidaan laajentaa moninäkymäoppimiseen, joka tarjoaa uudenlaisia mahdollisuuksia yhdistää eri omiikkanäkymiä mallintamisessa. Tämä diplomityö tutkii harvojen alkukuvakernelkoneiden soveltamista monimuuttujabiomarkkereiden oppimiseksi multiomiikkadasta, jossa on koronavirustauti 2019 tautiin sairastuneita potilaita. Tutkimuksessa selvitetään myös, voiko muuttujienvalintamenetelmän vakautta parantaa vakausvalintamenetelmällä. Löydettyjen muuttujien vakautta ja mallin ennustuskykyä löydetyillä muuttujilla verrataan kahteen menetelmään, logistiseen regressioon ja satunnaismetsään. Diplomityö tarkastelee kahta erilaista muuttujienvalintatapaa, joista ensimmäisessä valitaan arvo regularisaatiolle käyttäen validointidatasettiä. Toisessa tavassa harvat alkukuvakernelkoneet yhdistetään vakausvalintamenetelmän kanssa. Tulokset osoittavat, että vakausvalintamenetelmä parantaa opittavien monimuuttujabiomarkkereiden vakautta merkittävästi. Lisäksi harvojen alkukuvakernelkoneiden moninäkymämenetelmä oppii tasapainoisemman joukon biomarkkereita molemmista omiikkanäkymistä. Tämän diplomityön tulokset tarjoavat näkökulmia harvojen alkukuvakernelkoneiden soveltamiseen multiomiikkabiomarkkereiden oppimiseksi multiomiikkadatasta.

Description

Supervisor

Rousu, Juho

Thesis advisor

Huusari, Riikka
Pusa, Taneli

Keywords

biomarker, multi-omics, machine learning, kernel methods, stability selection, multi-view learning

Other note

Citation