Comparing tabular foundation models and classical machine learning methods for predicting treatment response

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorMarttinen, Pekka
dc.contributor.advisorHautaniemi, Sampsa
dc.contributor.authorAlanko, Senni
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.schoolSchool of Electrical Engineeringen
dc.contributor.supervisorTurunen, Markus
dc.date.accessioned2025-12-16T17:51:14Z
dc.date.available2025-12-16T17:51:14Z
dc.date.issued2025-12-12
dc.description.abstractMachine learning models are widely employed as prognostic tools in modern healthcare and medical research. These models can produce predictions that enable more efficient treatment for patients. While classical machine learning (ML) models are effective, they typically require feature engineering and retraining for each new dataset. Furthermore, finding the best ML model for each prediction task separately is time consuming. Recently developed tabular foundation models (TFMs) aim to address these limitations. TFMs introduce an all-purpose, transformer-based model for tabular data and may offer improved accuracy and generalization for tabular prognostic tasks. Since TFMs are recent developments, it is important to compare their performance to widely adopted classical ML models. This bachelor’s thesis provides an experimental comparison of TFMs and classical ML models in a treatment response prediction task using features derived from scanned tissue images. All models are trained to predict chemotherapy response for high-grade serous carcinoma (HGSC) patients, as the response is a strong prognostic factor for overall survival in HGSC. This thesis focuses on three TFMs, TabPFNv2, TabICL, and Mitra, and three best performing classical ML models. After training, performance is compared using evaluation metrics. The results show that TFMs clearly outperform classical ML models. TFMs achieved the highest scores across all evaluation metrics. TFMs achieved a mean accuracy of 0.74, whereas classical ML models reached 0.60. Additionally, TFMs obtained a mean ROC-AUC of 0.82 while classical models reached 0.59. These results suggest a substantial difference between the approaches in this classification task. The strong performance of TFMs also indicates that tissue-derived features may encode information relevant to chemotherapy response in HGSC, however further research is needed to confirm this. The study has limitations such as the exclusion of hyperparameter tuning and the use of a small dataset. Addressing these limitations and performing external validation should be prioritized in future work. Research on TFMs should be continued to better evaluate their potential for medical applications.en
dc.description.abstractKoneoppimismenetelmiä käytetään laajasti prognostisina työkaluina modernissa terveydenhuollossa ja lääketieteellisessä tutkimuksessa. Vaikka klassiset koneoppimismenetelmät ovat toimivia, ne vaativat usein datan esikäsittelyn sekä erillisen koulutuksen jokaiseen tehtävään. Klassisten koneoppimismenetelmien haastajiksi taulukkomaiselle datalle on kehitetty entistä kehittyneempiä tekoälymalleja: taulukkomaisia perusmalleja (engl. tabular foundation models, TFMs). TFM:t ovat suuria, esikoulutettuja syväoppimismalleja, jotka tuovat perusmallien (engl. foundation models) edut taulukkomaisen datan käsittelyyn. Uudet TFM:t ovat kiinnostavia myös prognoosien tekemiseen, sillä niiden avulla luodut ennusteet voisivat olla tarkempia. Koska TFM:t ovat hyvin uusia, on tärkeää vertailla niiden suoriutumiskykyä jo laajemmin käytössä oleviin klassisiin koneoppimismenetelmiin. Tässä kandidaatintyössä vertaillaan TFM:ien ja klassisten koneoppimismenetelmien suoriutumista kemoterapiavasteen ennustamisessa. Datana käytetään kudoskuvista poimittuja erilaisia piirteitä. Mallien tavoitteena on ennustaa kemoterapiavaste korkea-asteisen seroosin munasarjasyövän potilaille. Kyseisessä syövässä kemoterapiavaste toimii vahvana prognostisena piirteenä, mikä tekee ennusteesta tärkeän. Tämä työ vertailee kolmea TFM:ää kolmeen parhaiten menestyneeseen klassiseen koneoppimismenetelmään. Työssä käytetyt kolme TFM:ää ovat TabPFNv2, TabICL ja Mitra. Kaikki mallit koulutettiin luokittelemaan potilaan kemoterapiavaste kudoskuvien piirteiden perusteella, minkä jälkeen mallien menestystä vertailtiin erilaisilla suorituskykyä kuvaavilla arvoilla. Työn tulokset osoittavat TFM:ien menestyneen selkeästi paremmin kuin klassiset koneoppimismenetelmät. TFM:t saavuttivat korkeimmat arvot kaikissa käytetyissä vertailumetriikoissa. Tässä työssä TFM:ien keskimääräinen tarkkuusarvo on 0.74, kun taas klassisten mallien keskimääräinen arvo on 0.60. Tämän lisäksi TFM:ien keskimääräinen ROC-AUC on 0.82 ja klassisten mallien 0.59. Nämä arvot viittaavat selkeään eroavaisuuteen TFM:ien ja klassisten mallien suoriutumiskyvyssä. TFM:ien tulokset viittaavat myös siihen, että kudos-kuvien piirteiden avulla voitaisiin ennustaa potilaan kemoterapiavaste, mutta aihe vaatii lisää tutkimusta tämän vahvistamiseksi. Pienen datamäärän sekä hyperparametrien optimoinnin puuttumisen vuoksi työn tulokset ovat kuitenkin rajoitteisia. Tulevaisuudessa tutkimustyössä tulisi keskittyä suurempaan datamäärään ja ulkoiseen validaatioon, jotta TFM:ien potentiaali prognoosien tuottamiseen voitaisiin arvioida tarkemmin.fi
dc.format.extent36
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/141187
dc.identifier.urnURN:NBN:fi:aalto-202512169296
dc.language.isoenen
dc.programmeBachelor's Programme in Electrical Engineeringen
dc.programmeSähkötekniikan kandidaattiohjelmafi
dc.programmeKandidatprogrammet i elektrotekniksv
dc.programme.majorBioinformation Technologyen
dc.subject.keywordtabular foundation modelsen
dc.subject.keywordmachine learningen
dc.subject.keywordtreatment responseen
dc.subject.keyworddigital pathologyen
dc.titleComparing tabular foundation models and classical machine learning methods for predicting treatment responseen
dc.titleTaulukkomaisten perusmallien ja klassisten koneoppimismenetelmien vertailu hoitovasteen ennustamisessafi
dc.typeG1 Kandidaatintyöfi
dc.type.ontasotBachelor's thesisen
dc.type.ontasotKandidaatintyöfi
local.aalto.openaccessno

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
bachelor_Alanko_Senni_2025.pdf
Size:
5.13 MB
Format:
Adobe Portable Document Format