Learning interpretable predictive biomarkers from multi-omics data
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2023-10-09
Department
Major/Subject
Bioinformatics and Digital Health
Mcode
SCI3092
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
54+3
Series
Abstract
Advancements in technologies that generate large-scale omics data and the develop- ment of machine learning methods to analyze this data provide new opportunities for the field of medicine, such as improved prevention, diagnosis and treatment of diseases through the application of multivariate biomarkers. Moreover, multi- variate biomarkers offer opportunities for precision medicine where treatments can be tailored to the needs of individual patients. Multivariate biomarker discovery which involves the prediction of clinical outcomes reproducibly using a small set of biomarkers, has emerged as a promising approach. However, from a machine learning perspective, the integration of multi-omics data to discover multi-omics biomarkers remains challenging. In addition, interpretability and explainability are key issues in the translation of models into clinical practice. Recently proposed group of kernel methods called sparse pre-image kernel machines has an embedded feature selection and offers improved interpretability compared to traditional kernel methods. Another benefit for learning multi-omics biomarkers is that sparse pre-image kernel machines can be extended to multi-view learning. This thesis explores the application of sparse pre-image kernel machines to multivariate biomarker discovery using a multi-omics coronavirus disease 2019 data set. To study whether the stability of feature selection can be improved, this thesis couples a method known as stability selection with sparse pre-image kernel machines. The stability of feature selection and model performance with the selected features are compared to two baseline methods, random forest and logistic regression. This thesis considers two types of feature selection pipelines for sparse pre-image kernel machines, where the first is a general grid search approach to select a level of regularization, and thus features. In the second pipeline, sparse pre-image kernel machines is combined with stability selection. Results show that stability selection improves the stability of the learned features significantly. In addition, the proposed multi-view approach learns a more balanced set of features compared to other methods in terms of learning features from both views. The findings of this thesis provide insights into the potential application of sparse pre-image kernel machines for the discovery of multi-omics biomarkers in complex diseases.Teknologiset edistysaskeleet omiikkateknologioissa ja koneoppimismenetelmissä tarjoavat uusia mahdollisuuksia lääketieteelle, kuten mahdollisuuksia sairauksien ennaltaehkäisyyn, diagnosointiin ja hoitoon hyödyntäen monimuuttujabiomarkkereita. Monimuuttujabiomarkkerit tarjoavat myös mahdollisuuksia täsmälääketieteelle, jossa hoidot voidaan sovittaa yksittäisten potilaiden tarpeisiin. Monimuuttujabiomarkkerimalleilla voidaan ennustaa kliinisiä muutoksia toistettavasti pienellä määrällä biomarkkereita. Koneoppimisen näkökulmasta multiomiikkadatan yhdistäminen biomarkkereiden oppimiseksi on kuitenkin edelleen haastavaa. Lisäksi mallien tulkittavuus ja selitettävyys ovat keskeisiä kysymyksiä siirrettäessä malleja kliiniseen käyttöön. Vastikään kehitetty joukko kernelmenetelmiä nimeltään harvat alkukuvakernelkoneet sisältävät sisäisen muuttujienvalintamenetelmän, ja ne ovat skaalautuvampia ja tulkittavampia kuin perinteiset kernelmenetelmät. Harvat alkukuvakernelkoneet voidaan laajentaa moninäkymäoppimiseen, joka tarjoaa uudenlaisia mahdollisuuksia yhdistää eri omiikkanäkymiä mallintamisessa. Tämä diplomityö tutkii harvojen alkukuvakernelkoneiden soveltamista monimuuttujabiomarkkereiden oppimiseksi multiomiikkadasta, jossa on koronavirustauti 2019 tautiin sairastuneita potilaita. Tutkimuksessa selvitetään myös, voiko muuttujienvalintamenetelmän vakautta parantaa vakausvalintamenetelmällä. Löydettyjen muuttujien vakautta ja mallin ennustuskykyä löydetyillä muuttujilla verrataan kahteen menetelmään, logistiseen regressioon ja satunnaismetsään. Diplomityö tarkastelee kahta erilaista muuttujienvalintatapaa, joista ensimmäisessä valitaan arvo regularisaatiolle käyttäen validointidatasettiä. Toisessa tavassa harvat alkukuvakernelkoneet yhdistetään vakausvalintamenetelmän kanssa. Tulokset osoittavat, että vakausvalintamenetelmä parantaa opittavien monimuuttujabiomarkkereiden vakautta merkittävästi. Lisäksi harvojen alkukuvakernelkoneiden moninäkymämenetelmä oppii tasapainoisemman joukon biomarkkereita molemmista omiikkanäkymistä. Tämän diplomityön tulokset tarjoavat näkökulmia harvojen alkukuvakernelkoneiden soveltamiseen multiomiikkabiomarkkereiden oppimiseksi multiomiikkadatasta.Description
Supervisor
Rousu, JuhoThesis advisor
Huusari, RiikkaPusa, Taneli
Keywords
biomarker, multi-omics, machine learning, kernel methods, stability selection, multi-view learning