Multi-modal representation learning for molecular property prediction

Loading...
Thumbnail Image

Files

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Department

Mcode

ELEC3016

Language

fi

Pages

35

Series

Abstract

Molecular representation learning applies machine learning to encode molecules as vectors that preserve the molecular structures and features. The learned vector embeddings can be utilized to predict molecular properties, which is essential in drug discovery. While traditional molecular representation methods are often uni-modal and based solely on molecular structures, they fail to capture complex biological effects. To address this limitation, multi-modal representation learning integrates data from multiple modalities, including molecular structures, gene expression profiles, and cellular morphology images, to improve predictive performance. This thesis explores recent approaches in multi-modal molecular representation learning. It reviews key encoder architectures suited for each modality, such as graph neural networks, transformers, and convolutional neural networks. Both supervised and unsupervised methods are examined with emphasis on multi-task learning, variational autoencoders and contrastive learning. Furthermore, the thesis discusses key challenges in integrating multi-modal data. The findings suggest that methods like multi-task learning, contrastive learning and variational autoencoders can be applied for integrating multi-modal data into representation learning to improve the accuracy of molecular property predictions. The effectiveness of each method depends on various factors, including the number and type of integrated modalities, the choice of training objectives, and the ability of the model to address common challenges. Incorporating a diverse range of data modalities and selecting appropriate training objectives can significantly enhance model performance. Other challenges involve batch effects, noisy or imperfect data, and a lack of or limited paired data. Addressing these issues with strategies, such as batch correction, under-sampling inactive molecules can enhance model performance.

Lääkkeiden kehittäminen on pitkäkestoinen ja kallis prosessi. Koneoppimista on hyödynnetty prosessin nopeuttamisessa ja tulosten laadun parantamisessa. Molekyylien representaatio-oppimisen tavoitteena on koodata molekyylejä koneoppimisen avulla numeerisiksi vektoreiksi, jotka säilyttävät tiedon molekyylien rakenteesta ja toiminnallisista ominaisuuksista. Näitä opittuja numeerisia vektoreita voidaan hyödyntää esimerkiksi molekyylien ominaisuuksien ennustamisessa, mikä on erityisen tärkeää lääkkeiden kehityksessä. Perinteiset menetelmät keskittyvät usein vain molekyylien rakenteeseen, mikä rajoittaa niiden kykyä mallintaa monimutkaisempia biologisia vaikutuksia solutasolla. Multimodaalinen representaatio-oppiminen (engl. multi-modal representation learning) ratkaisee tämän ongelman yhdistämällä erilaisia tietolähteitä, kuten molekyylirakenteita, geenien ilmentymisprofiileja ja solukuvia. Tämä työ on kirjallisuustutkimus, jossa tarkastellaan tärkeimpiä menetelmiä molekyylien multimodaalisessa representaatio-oppimisessa. Painopiste on erityisesti genomisen datan, molekyylirakenteiden ja solukuvien yhdistämisessä, sillä nämä tarjoavat keskeistä tietoa molekyylien käyttäytymisestä ja biologisista vaikutuksista. Työssä hyödynnetään useita ajankohtaisia tieteellisiä julkaisuja ja esimerkkimalleja, kuten CLOOME, MolGPS ja InfoAlign, jotka edustavat eri lähestymistapoja multimodaaliseen molekyylien representaatio-oppimiseen. Työssä esitellään eri tiedon muotoihin soveltuvia enkoodereita (engl. encoder), kuten graafisia neuroverkkoja (engl. graph neural network, GNN), takaisinkytkeytyviä neuroverkkoja (engl. recurrent neural network, RNN), transformereita ja konvoluutioneuroverkkoja (engl. convololutional neural network, CNN). Lisäksi käsitellään sekä ohjattuja että ohjaamattomia oppimismenetelmiä. Näissä keskitytään erityisesti siihen, miten multimodaalista tietoa voidaan hyödyntää oppimisprosessissa. Erityistä huomiota kiinnitetään monitehtäväoppimiseen (engl. multi-task learning), kontrastiiviseen oppimiseen (engl. contrastive learning) ja variaatioautenkoodereihin (engl. variational eutoencoder, VAE), jotka mahdollistavat eri tietolähteiden yhdistämisen oppimisen aikana. Lisäksi käsitellään multimodaaliseen representaatio-oppimiseen liittyviä keskeisimpiä haasteita. Kirjallisuustutkimuksen perusteella keskeisimpiä menetelmiä multimodaalisen tiedon yhdistämiseen molekyylien representaatio-opissa ovat monitehtäväoppiminen, kontrastiivinen oppiminen ja variaatioautenkooderit. Mikään näistä menetelmistä ei kuitenkaan ole osoittautunut yksiselitteisesti ylivoimaiseksi molekyyliominaisuuksien ennustamisessa. Menetelmien suorituskykyyn vaikuttavat muun muassa käytettyjen tietotyyppien määrä ja laatu, hukkafunktion (engl. loss function) valinta sekä kyky huomioida biologisia ja teknisiä haasteita. Kirjallisuuden perusteella menetelmien suorituskykyä voidaan parantaa hyödyntämällä monipuolisemmin biologista dataa. Erityisesti kontrastiiviset menetelmät hyötyvät tarkoituksenmukaisesti suunnitelluista hukkafunktioista, jotka mahdollistavat tarkemman samankaltaisuuksien oppimisen eri tietotyyppien näkökulmista. Suorituskykyä rajoittavia haasteita ovat muun muassa erävaikutukset (engl. batch effects), kohinainen tai puutteellinen data sekä parittaisen biologisen datan niukkuus. Näitä haasteita voidaan pyrkiä ratkaisemaan esimerkiksi tilastollisilla eräkorjausmenetelmillä, epäaktiivisten molekyylien suodatuksella, molekyylien konsentraation huomioimisella sekä hyödyntämällä tarkempia lähestymistapoja, kuten kontrastiivista oppimista.

Description

Supervisor

Turunen, Markus

Thesis advisor

Masood, Arslan

Other note

Citation