Machine Learning Applications in Molecular Property Prediction

No Thumbnail Available

Files

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Date

2024-04-26

Department

Major/Subject

Tietotekniikka

Mcode

SCI3027

Degree programme

Teknistieteellinen kandidaattiohjelma

Language

en

Pages

31

Series

Abstract

Molecular properties are the measurable characteristics of molecules, such as weight, aqueous solubility, and toxicity. Predicting molecular properties directly from the molecule structure is an important task in cheminformatics, since the results can be applied in drug discovery, for example. This thesis covers machine learning applications in molecular property prediction. The thesis consists of a literature review and an experimental section. The literature review presents different machine learning models applicable to molecular property prediction and compares their performances on various benchmark datasets based on the results reported in the literature. On the other hand, the experimental section compares the performances of a simple neural network and a random forest in three physical chemistry related datasets based on the results obtained in an experiment. Based on the literature review, the thesis concludes that there exists a lot of different machine learning models utilised in molecular property prediction. Some of the models use fixed representations, like fingerprints, while some models apply representation learning. All models have their unique strengths and weaknesses, and therefore their performances vary between datasets. The thesis also makes more concrete observations from the literature. For example, the thesis states that BERT (Bidirectional Encoder Representations from Transformers) -based models and the GEM (geometry-enhanced molecular representation learning method) outperform most of the other representation learning models included in the comparison. The thesis also states that with the right fixed representations, random forests often outperform the representation learning models. That being said, the performance of a specific fixed representation may vary heavily between different datasets. In the experiment, three physical chemistry related datasets were featurised with the ECFP4 fingerprints and split into training set and testing set. Then, a neural network and a random forest were trained on the training set, and their performances were evaluated on the testing set. The neural network outperformed the random forest on every dataset. It was also noticed that the performances of ECFP4 fingerprints had a lot of variance between the datasets. This is in line with the results reported in the literature.

Molekyyliominaisuudet ovat molekyylin mitattavissa olevia ominaisuuksia, kuten paino, vesiliukoisuus ja myrkyllisyys. Molekyyliominaisuuksien ennustaminen suoraan molekyylin rakenteesta on tärkeä keminformatiikan tutkimuskohde, sillä saatuja tuloksia voidaan hyödyntää esimerkiksi uusien lääkkeiden löytämisessä. Tämä kandidaatintyö käsittelee koneoppimismenetelmien hyödyntämistä molekyyliominaisuuksien ennustamisessa. Työ koostuu kirjallisuustutkimuksesta ja soveltavasta osiosta. Kirjallisuustutkimusosiossa esitellään erilaisia molekyyliominaisuuksien ennustamiseen sopivia koneoppimismalleja ja vertaillaan niiden ennustuskykyä useissa vertailudatajoukoissa (engl. benchmark dataset) alan kirjallisuuteen perustuen. Soveltavassa osiossa puolestaan vertaillaan kokeelliseen tutkimukseen perustuen yksinkertaisen neuroverkon ja satunnaismetsän (engl. random forest) ennustuskykyä kolmessa fysikaaliseen kemiaan liittyvässä datajoukossa. Kirjallisuustutkimusosiossa molekyyliominaisuuksien ennustamiseen todetaan olevan useita eri koneoppimismalleja, joista osa käyttää kiinteää esitystapaa (engl. fixed representation), kuten sormenjälkiä, ja osa hyödyntää edustusoppimista (engl. representation learning). Kaikilla malleilla todetaan olevan omat vahvuutensa ja heikkoutensa, mistä johtuen vertailutulokset vaihtelevat eri datajoukkojen välillä. Kirjallisuudesta kerätystä vertailudatasta tehdään myös konkreettisempia huomioita. Työssä esimerkiksi todetaan, että BERT (engl. Bidirectional Encoder Representations from Transformers) -pohjaiset mallit ja GEM (engl. geometry-enhanced molecular representation learning method) päihittävät suurimman osan muista vertailussa mukana olleista edustusoppimismalleista useissa datajoukoissa. Todetaan myös, että sopivan kiinteän esityksen avulla satunnaismetsät usein päihittävät edustusoppimismallit. Kiinteiden esitysten toimivuus saattaa kuitenkin vaihdella huomattavasti eri datajoukkojen välillä. Soveltavan osion kokeessa kolme fysikaaliseen kemiaan liittyvää datajoukkoa piirteistettiin (engl. featurise) ECFP4-sormenjälkien avulla ja datajoukot jaettiin koulutusdataan ja testidataan. Tämän jälkeen neuroverkko ja satunnaismetsä koulutettiin koulutusdatan avulla ja niiden ennustuskykyä testattiin testidataa hyödyntäen. Neuroverkko saavutti paremmat tulokset jokaisessa datajoukossa. Kokeessa huomattiin myös ECFP4-sormenjälkien soveltuvuudessa eri datajoukkoihin alan kirjallisuudessa aikaisemminkin havaitun kaltaista vaihtelua.

Description

Supervisor

Savioja, Lauri

Thesis advisor

Astero, Maryam

Keywords

molecular property, machine learning, representation learning, ECFP4

Other note

Citation