Study on projective feature selection on molecular fingerprint data

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Date

2024-09-29

Department

Major/Subject

Complex Systems

Mcode

Degree programme

Master's Programme in Life Science Technologies

Language

en

Pages

59

Series

Abstract

This thesis deals with molecular fingerprints and anti-cancer drug response data. It is studied whether features that contribute the most to the response the anti-cancer drugs elicit can be found with the help of feature selection. For this, mainly two different algorithms are used and compared: a basic linear Pearson correlation coefficient-based feature ranking algorithm and a novel kernel-based projective feature selection algorithm. The success of feature selection is evaluated using kernel alignment and regression. The former is used for examining how well feature selection maintains similarity between data points, while the latter is for predicting drug response values from the fingerprint data. In the regression problem, a few different learners are compared: the two mainly used are linear and random forest regression, but also support vector regression and two slightly different multilayer perceptrons are applied to the task. The results show that the feature selection algorithm relying on projection operators is superior to the simple linear one, finding features contributing both to higher kernel alignment and more accurate predictions of drug response values. Regressor-wise, the algorithm producing the most accurate predictions, on average, is the random forest regression while the linear regression yields the most inaccurate ones. However, none of the algorithms used achieves satisfactory prediction accuracy. When it comes to the different molecular fingerprints, it appears that the substructure keys-based produce slightly more accurate predictions than topological or circular fingerprints, on average. In conclusion, the results of this thesis show that predicting drug response values from molecular fingerprint data is a challenging task. However, with a suitable feature selection algorithm, it is possible to improve learning speed while maintaining almost as high prediction accuracy as with full features. Further studies might find more suitable learning algorithms producing more satisfactory results.

Tässä työssä käsitellään molekulaarisia sormenjälkiä ja syöpälääkevastedataa. Tutkitaan voidaanko muuttujanvalinnan avulla löytää sellaisia ominaisuuksia, jotka myötävaikuttavat eniten syöpälääkkeiden elimistössä aiheuttamaan vasteeseen. Tähän tarkoitukseen käytetään ja verrataan keskenään pääasiallisesti kahta eri algoritmia: ensimmäinen näistä on yksinkertainen lineaarinen muuttujanvalinta-algoritmi, joka laittaa muuttujat niiden Pearsonin korrelaatiokertoimien mukaiseen paremmuusjärjestykseen, ja toinen on uusi kernel-pohjainen projektiivinen muuttujanvalinta-algoritmi. Muuttujanvalinnan onnistumista arvioidaan käyttäen kernel-kohdistusta ja regressiota. Ensimmäisellä menetelmällä tutkitaan kuinka hyvin muuttujanvalinta säilyttää datapisteiden välisen samankaltaisuuden, kun taas jälkimmäistä käytetään ennustamaan lääkevastearvoja sormenjälkidatasta. Regresio-ongelmassa verrataan keskenään muutamaa eri oppijaa, joista kaksi tärkeintä ovat lineaarinen ja satunnaismetsäregressio, joiden lisäksi tehtävässä käytetään tukivektoriregressiota ja kahta keskenään hieman erilaista monikerroksista perseptroniverkkoa. Tulokset osoittavat, että projektio-operaattoreihin perustuva muuttujanvalinta-algoritmi on ylivertainen yksinkertaiseen lineaariseen algoritmiin nähden, sillä sekä kernel-kohdistus että lääkevastearvojen ennustaminen antavat parempia tuloksia ensiksi mainittua muuttujanvalintamenetelmää käytettämällä. Regressiomalleja verratessa, kaikkein tarkimpia ennustuksia tuottaa satunnaismetsäalgoritmi. Mikään käytetyistä regressioalgoritmeista ei kuitenkaan onnistu tuottamaan tyydyttävän tarkkoja ennustuksia. Mitä tulee eri molekulaarisiin sormenjälkiin, tulosten perusteella näyttää siltä, että alarakenneavaimiin perustuvat (substructure keys-based) sormenjäljet tuottavat keskimäärin tarkempia ennustuksia, kuin topologiset tai säteeseen perustuvat (circular) sormenjäljet. Yhteenvetona voidaan todeta, että tulokset osoittavat lääkevastearvojen ennustamisen olevan haastava tehtävä. Sopivalla muuttujanvalinta-algoritmilla voidaan kuitenkin parantaa oppimisnopeutta säilyttäen samalla likimain yhtä korkea ennustustarkkuus kuin käytettäessä kaikkia muuttujia. Lisätutkimuksissa saatettaisiin löytää sopivampia regressiomalleja tuottamaan tyydyttävämpiä tuloksia.

Description

Supervisor

Rousu, Juho

Thesis advisor

Huusari, Riikka

Keywords

machine learning, feature selection, ProjSe, kernel methods, NCI-60 anti-cancer drug response data, molecular fingerprints

Other note

Citation