Machine Learning Applications in Molecular Property Prediction
No Thumbnail Available
Files
Suorsa_Saku_2024.pdf (906.15 KB) (opens in new window)
Aalto login required (access for Aalto Staff only).
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-04-26
Department
Major/Subject
Tietotekniikka
Mcode
SCI3027
Degree programme
Teknistieteellinen kandidaattiohjelma
Language
en
Pages
31
Series
Abstract
Molecular properties are the measurable characteristics of molecules, such as weight, aqueous solubility, and toxicity. Predicting molecular properties directly from the molecule structure is an important task in cheminformatics, since the results can be applied in drug discovery, for example. This thesis covers machine learning applications in molecular property prediction. The thesis consists of a literature review and an experimental section. The literature review presents different machine learning models applicable to molecular property prediction and compares their performances on various benchmark datasets based on the results reported in the literature. On the other hand, the experimental section compares the performances of a simple neural network and a random forest in three physical chemistry related datasets based on the results obtained in an experiment. Based on the literature review, the thesis concludes that there exists a lot of different machine learning models utilised in molecular property prediction. Some of the models use fixed representations, like fingerprints, while some models apply representation learning. All models have their unique strengths and weaknesses, and therefore their performances vary between datasets. The thesis also makes more concrete observations from the literature. For example, the thesis states that BERT (Bidirectional Encoder Representations from Transformers) -based models and the GEM (geometry-enhanced molecular representation learning method) outperform most of the other representation learning models included in the comparison. The thesis also states that with the right fixed representations, random forests often outperform the representation learning models. That being said, the performance of a specific fixed representation may vary heavily between different datasets. In the experiment, three physical chemistry related datasets were featurised with the ECFP4 fingerprints and split into training set and testing set. Then, a neural network and a random forest were trained on the training set, and their performances were evaluated on the testing set. The neural network outperformed the random forest on every dataset. It was also noticed that the performances of ECFP4 fingerprints had a lot of variance between the datasets. This is in line with the results reported in the literature.Molekyyliominaisuudet ovat molekyylin mitattavissa olevia ominaisuuksia, kuten paino, vesiliukoisuus ja myrkyllisyys. Molekyyliominaisuuksien ennustaminen suoraan molekyylin rakenteesta on tärkeä keminformatiikan tutkimuskohde, sillä saatuja tuloksia voidaan hyödyntää esimerkiksi uusien lääkkeiden löytämisessä. Tämä kandidaatintyö käsittelee koneoppimismenetelmien hyödyntämistä molekyyliominaisuuksien ennustamisessa. Työ koostuu kirjallisuustutkimuksesta ja soveltavasta osiosta. Kirjallisuustutkimusosiossa esitellään erilaisia molekyyliominaisuuksien ennustamiseen sopivia koneoppimismalleja ja vertaillaan niiden ennustuskykyä useissa vertailudatajoukoissa (engl. benchmark dataset) alan kirjallisuuteen perustuen. Soveltavassa osiossa puolestaan vertaillaan kokeelliseen tutkimukseen perustuen yksinkertaisen neuroverkon ja satunnaismetsän (engl. random forest) ennustuskykyä kolmessa fysikaaliseen kemiaan liittyvässä datajoukossa. Kirjallisuustutkimusosiossa molekyyliominaisuuksien ennustamiseen todetaan olevan useita eri koneoppimismalleja, joista osa käyttää kiinteää esitystapaa (engl. fixed representation), kuten sormenjälkiä, ja osa hyödyntää edustusoppimista (engl. representation learning). Kaikilla malleilla todetaan olevan omat vahvuutensa ja heikkoutensa, mistä johtuen vertailutulokset vaihtelevat eri datajoukkojen välillä. Kirjallisuudesta kerätystä vertailudatasta tehdään myös konkreettisempia huomioita. Työssä esimerkiksi todetaan, että BERT (engl. Bidirectional Encoder Representations from Transformers) -pohjaiset mallit ja GEM (engl. geometry-enhanced molecular representation learning method) päihittävät suurimman osan muista vertailussa mukana olleista edustusoppimismalleista useissa datajoukoissa. Todetaan myös, että sopivan kiinteän esityksen avulla satunnaismetsät usein päihittävät edustusoppimismallit. Kiinteiden esitysten toimivuus saattaa kuitenkin vaihdella huomattavasti eri datajoukkojen välillä. Soveltavan osion kokeessa kolme fysikaaliseen kemiaan liittyvää datajoukkoa piirteistettiin (engl. featurise) ECFP4-sormenjälkien avulla ja datajoukot jaettiin koulutusdataan ja testidataan. Tämän jälkeen neuroverkko ja satunnaismetsä koulutettiin koulutusdatan avulla ja niiden ennustuskykyä testattiin testidataa hyödyntäen. Neuroverkko saavutti paremmat tulokset jokaisessa datajoukossa. Kokeessa huomattiin myös ECFP4-sormenjälkien soveltuvuudessa eri datajoukkoihin alan kirjallisuudessa aikaisemminkin havaitun kaltaista vaihtelua.Description
Supervisor
Savioja, LauriThesis advisor
Astero, MaryamKeywords
molecular property, machine learning, representation learning, ECFP4