Study on projective feature selection on molecular fingerprint data
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-09-29
Department
Major/Subject
Complex Systems
Mcode
Degree programme
Master's Programme in Life Science Technologies
Language
en
Pages
59
Series
Abstract
This thesis deals with molecular fingerprints and anti-cancer drug response data. It is studied whether features that contribute the most to the response the anti-cancer drugs elicit can be found with the help of feature selection. For this, mainly two different algorithms are used and compared: a basic linear Pearson correlation coefficient-based feature ranking algorithm and a novel kernel-based projective feature selection algorithm. The success of feature selection is evaluated using kernel alignment and regression. The former is used for examining how well feature selection maintains similarity between data points, while the latter is for predicting drug response values from the fingerprint data. In the regression problem, a few different learners are compared: the two mainly used are linear and random forest regression, but also support vector regression and two slightly different multilayer perceptrons are applied to the task. The results show that the feature selection algorithm relying on projection operators is superior to the simple linear one, finding features contributing both to higher kernel alignment and more accurate predictions of drug response values. Regressor-wise, the algorithm producing the most accurate predictions, on average, is the random forest regression while the linear regression yields the most inaccurate ones. However, none of the algorithms used achieves satisfactory prediction accuracy. When it comes to the different molecular fingerprints, it appears that the substructure keys-based produce slightly more accurate predictions than topological or circular fingerprints, on average. In conclusion, the results of this thesis show that predicting drug response values from molecular fingerprint data is a challenging task. However, with a suitable feature selection algorithm, it is possible to improve learning speed while maintaining almost as high prediction accuracy as with full features. Further studies might find more suitable learning algorithms producing more satisfactory results.Tässä työssä käsitellään molekulaarisia sormenjälkiä ja syöpälääkevastedataa. Tutkitaan voidaanko muuttujanvalinnan avulla löytää sellaisia ominaisuuksia, jotka myötävaikuttavat eniten syöpälääkkeiden elimistössä aiheuttamaan vasteeseen. Tähän tarkoitukseen käytetään ja verrataan keskenään pääasiallisesti kahta eri algoritmia: ensimmäinen näistä on yksinkertainen lineaarinen muuttujanvalinta-algoritmi, joka laittaa muuttujat niiden Pearsonin korrelaatiokertoimien mukaiseen paremmuusjärjestykseen, ja toinen on uusi kernel-pohjainen projektiivinen muuttujanvalinta-algoritmi. Muuttujanvalinnan onnistumista arvioidaan käyttäen kernel-kohdistusta ja regressiota. Ensimmäisellä menetelmällä tutkitaan kuinka hyvin muuttujanvalinta säilyttää datapisteiden välisen samankaltaisuuden, kun taas jälkimmäistä käytetään ennustamaan lääkevastearvoja sormenjälkidatasta. Regresio-ongelmassa verrataan keskenään muutamaa eri oppijaa, joista kaksi tärkeintä ovat lineaarinen ja satunnaismetsäregressio, joiden lisäksi tehtävässä käytetään tukivektoriregressiota ja kahta keskenään hieman erilaista monikerroksista perseptroniverkkoa. Tulokset osoittavat, että projektio-operaattoreihin perustuva muuttujanvalinta-algoritmi on ylivertainen yksinkertaiseen lineaariseen algoritmiin nähden, sillä sekä kernel-kohdistus että lääkevastearvojen ennustaminen antavat parempia tuloksia ensiksi mainittua muuttujanvalintamenetelmää käytettämällä. Regressiomalleja verratessa, kaikkein tarkimpia ennustuksia tuottaa satunnaismetsäalgoritmi. Mikään käytetyistä regressioalgoritmeista ei kuitenkaan onnistu tuottamaan tyydyttävän tarkkoja ennustuksia. Mitä tulee eri molekulaarisiin sormenjälkiin, tulosten perusteella näyttää siltä, että alarakenneavaimiin perustuvat (substructure keys-based) sormenjäljet tuottavat keskimäärin tarkempia ennustuksia, kuin topologiset tai säteeseen perustuvat (circular) sormenjäljet. Yhteenvetona voidaan todeta, että tulokset osoittavat lääkevastearvojen ennustamisen olevan haastava tehtävä. Sopivalla muuttujanvalinta-algoritmilla voidaan kuitenkin parantaa oppimisnopeutta säilyttäen samalla likimain yhtä korkea ennustustarkkuus kuin käytettäessä kaikkia muuttujia. Lisätutkimuksissa saatettaisiin löytää sopivampia regressiomalleja tuottamaan tyydyttävämpiä tuloksia.Description
Supervisor
Rousu, JuhoThesis advisor
Huusari, RiikkaKeywords
machine learning, feature selection, ProjSe, kernel methods, NCI-60 anti-cancer drug response data, molecular fingerprints