Contrastive learning for molecular property prediction tasks

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Bachelor's thesis

Department

Mcode

ELEC3016

Language

en

Pages

7+45

Series

Abstract

Machine learning is now widely applied in drug discovery, including molecular property prediction tasks. These tasks require high-quality molecular representations, which describe molecular characteristics using numerical vectors. Traditionally, representations were crafted through feature engineering, where molecular properties were manually extracted. Today, machine learning enables representations to be learned through a process called representation learning. This thesis focuses on contrastive learning as a method for representation learning, which is an unsupervised machine learning technique. Contrastive learning processes multiple modalities simultaneously, meaning it can handle different types of data representations. This enables the integration of not only molecular modalities but also biological modalities. Incorporating biological modalities allows the representation to capture bioactivity information of molecules. This thesis is a literature review that discusses representation learning for molecular representations, the different data modalities used in these tasks, and various contrastive learning frameworks applied to them. Three uni-modal and three multi-modal frameworks are examined, and their performance and characteristics are compared. Uni-modal frameworks incorporate only molecular modalities, while multi-modal frameworks include both molecular and biological modalities. The goal is to assess their respective strengths and weaknesses, as no single framework has been found to be universally optimal for molecular representation learning. As a result, more sophisticated and complex frameworks provided better performance. However, the performance differences among uni-modal frameworks were minor, whereas those among multi-modal frameworks were more substantial. The more complex frameworks, however, require more manual work and potentially higher computational costs, so the improved performance comes at a cost.

Koneoppimista on alettu hyödyntää lääkekehityksessä viime aikoina tehokkuuden lisäämiseksi ja personoidun lääkehoidon edistämiseksi. Molekyylien ominaisuuksien ennustamiseen liittyvät tehtävät, kuten lääkekehitys, vaativat korkealaatuisia molekyylejä kuvaavia esityksiä. Molekyylien esitykset ovat numeerisia vektoreita, jotka kuvaavat molekyylin ominaisuuksia. Perinteisesti esitysten muodostamiseen on käytetty piirteiden suunnittelua (engl. feature engineering), jossa molekyylien ominaisuudet eroteltiin manuaalisesti. Nykyään koneoppiminen mahdollistaa esitysten oppimisen prosessilla, jota kutsutaan esitysoppimiseksi (engl. representation learning). Tämä työ keskittyy kontrastiiviseen oppimiseen (engl. contrastive learning) esitysoppimisen menetelmänä. Kyseessä on ohjaamaton (engl. unsupervised) koneoppimistekniikka, jossa mallin koulutuksessa käytetyn datan luokkia ei tunneta ennalta. Kontrastiivinen oppiminen käsittelee samanaikaisesti useita modaliteetteja eli erilaisia tietomuotoja. Tämä mahdollistaa paitsi molekyylien myös biologisten modaliteettien hyödyntämisen. Biologisten modaliteettien sisällyttäminen esitykseen mahdollistaa molekyylien bioaktiivisuustiedon havaitsemisen, mikä on erityisen tärkeää lääkekehitykseen liittyvissä tehtävissä. Esitysoppimisessa hyödynnetään erilaisia syväoppimismalleja, kuten graafisia neuroverkkoja (engl. Graph Neural Networks) ja transformereita (engl. transformers), jotka eroavat toisistaan pääasiassa sen mukaan, millaista dataa ne prosessoivat. Tämä opinnäytetyö on kirjallisuustutkimus, joka käsittelee molekyylien esitysoppimista, siinä käytettyjä tietomodaliteetteja sekä erilaisia kontrastiivisen oppimisen malleja, joita siihen sovelletaan. Tutkimuksessa tarkastellaan kolmea yksimodaalista ja kolmea monimodaalista mallia sekä vertaillaan niiden suorituskykyä ja ominaisuuksia. Yksimodaaliset mallit hyödyntävät ainoastaan molekyylimodaliteetteja, kun taas monimodaaliset mallit yhdistävät molekyyli- ja biologisia modaliteetteja. Tavoitteena on arvioida kunkin mallin vahvuuksia ja heikkouksia, sillä minkään yksittäisen mallin ei ole havaittu olevan yleispätevästi paras molekyylien esitysten oppimiseen. Yksimodaaliset mallit ovat keskenään melko samankaltaisia ja eroavat pääasiassa siinä, missä muodossa ne käsittelevät dataa ja miten sitä muokataan. Kaksi mallia käsittelee molekyylejä graafeina ja yksi tekstimuotoisina esityksinä, minkä vuoksi ne käyttävät myös eri syväoppimismalleja. Monimodaaliset mallit käsittelevät molekyylimodaliteettien lisäksi solumorfologiakuvia, ja yksi malleista hyödyntää lisäksi geeniekspressiota, mikä erottaa sen selvästi muista. Kaksi muuta mallia eroavat toisistaan esimerkiksi siten, että toinen niistä ottaa huomioon molekyylin aktiivisuuden ja konsentraation, joita ensimmäinen malli ei mittaa. Näiden lisäksi kaikki kolme mallia eroavat toisistaan selvästi myös käyttämänsä hukkafunktion perusteella. Kaikki mallit eivät ole suoraan vertailukelpoisia keskenään, koska niitä ei ole testattu samoilla malleilla tai datalla. Kuitenkin käsitellyt yksimodaaliset mallit ovat keskenään vertailukelpoisia, samoin kuin monimodaaliset mallit. Tutkimuksen tuloksena havaittiin, että kehittyneemmät ja monimutkaisemmat esitysoppimismallit antavat parempia tuloksia. Nämä mallit ovat kuitenkin laskennallisesti haastavampia ja vaativat usein enemmän manuaalista työtä. Kuitenkin mikään malli ei erottunut selvästi parhaaksi, ja siksi tähän tehtävään suunnitellaan jatkuvasti uusia malleja.

Description

Supervisor

Turunen, Markus

Thesis advisor

Masood, Arslan

Other note

Citation