Predicting liquid-liquid phase separation of proteins using graph neural network

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2023-06-13

Department

Major/Subject

Systems and Operations Research

Mcode

SCI3055

Degree programme

Master’s Programme in Mathematics and Operations Research

Language

en

Pages

59

Series

Abstract

Liquid-liquid phase separation (LLPS) of proteins has been shown to be related to many diseases and biological processes. In LLPS, the proteins become concentrated in some places and form two distinct liquid phases. The occurrence of this phenomenon is highly dependent on the conditions of the protein solution. Determining the LLPS behavior of a protein through simulations or experiments is expensive and time-consuming which has raised interest in using machine learning methods to predict LLPS. However, previous machine learning methods on LLPS have used small data sets which has limited the methods that can be applied. In addition, the previous machine learning methods have not considered the conditions at which the LLPS occurs. Therefore, this thesis aims to develop a machine learning model that can predict the LLPS of proteins under different conditions and evaluate the performance of the model. The developed model uses a graph neural network (GNN) to extract information from the three-dimensional structure of the proteins. The two conditions used in the model are temperature and salt concentration. The conditions are incorporated in the model before and after the GNN. Simulated data is used as the training data for the model, and experimental data is used to evaluate the performance of the model. The results for the simulated data indicate that the GNN model is capable of extracting information from protein structures on a general level. However, the model is not capable of predicting the complicated condition dependencies that are present in the simulated data. This suggests that the model should be developed further to be able to predict the condition dependencies better. The model was not able to predict the experimental data accurately. The main reason for this was the discrepancy between the simulated and experimental data. Therefore, to improve the performance of the model on experimental data, the LLPS simulations and determining the LLPS information from the simulations should be studied further. Nevertheless, this thesis is the first contribution to developing a machine learning model to predict LLPS under different external conditions.

Proteiinien neste-nestefaasierotuksen (LLPS) on osoitettu liittyvän moniin sairauksiin ja biologisiin prosesseihin. LLPS:ssä proteiinit konsentroituvat tiettyihin paikkoihin ja muodostavat kaksi erillistä nestefaasia. Tämän ilmiön esiintyminen on riippuvainen proteiiniliuoksen olosuhteista. Proteiinin LLPS-käyttäytymisen määrittäminen simulaatioiden tai kokeiden avulla on kallista ja aikaa vievää, mikä on nostanut kiinnostusta koneoppimismenetelmiin, joilla voitaisiin ennustaa LLPS. Aiemmissa LLPS:ää koskevissa koneoppimismenetelmissä on käytetty pieniä data-aineistoja, mikä on rajoittanut sovellettavia menetelmiä. Lisäksi aiemmissa koneoppimismenetelmissä ei ole otettu huomioon olosuhteita, joissa LLPS tapahtuu. Tämän vuoksi tämän tutkimuksen tavoitteena on kehittää koneoppimismalli, jolla voidaan ennustaa proteiinien LLPS:ää eri olosuhteissa, ja arvioida mallin suorituskykyä. Kehitetyssä mallissa käytetään graafineuroverkkoa (GNN), jonka avulla saadaan hyödynnettyä tietoa proteiinien kolmiulotteisesta rakenteesta. Mallissa käytetyt kaksi olosuhdetta ovat lämpötila ja suolapitoisuus. Olosuhteet sisällytetään malliin ennen ja jälkeen GNN:n. Mallin harjoitusdatana käytetään simuloitua dataa, ja mallin suorituskyvyn arviointiin käytetään kokeellista dataa. Simuloitudulla datalla saadut tulokset osoittavat, että GNN-malli kykenee poimimaan tietoa proteiinirakenteista yleisellä tasolla. Malli ei kuitenkaan kykene ennustamaan simuloidussa datassa esiintyviä monimutkaisia olosuhderiippuvuuksia. Tämä viittaa siihen, että mallia olisi kehitettävä edelleen, jotta se pystyisi ennustamaan olosuhderiippuvuudet paremmin. Kehitetty malli ei pystynyt ennustamaan kokeellista dataa tarkasti. Pääasiallinen syy tähän oli simuloidun ja kokeellisen datan välinen eroavuus. Tästä syystä LLPS-simulaatioita ja LLPS:n määrittämistä simulaatioista on tutkittava lisää, jotta mallien suorituskykyä kokeellisen datan osalta voitaisiin parantaa. Siitä huolimatta tässä tutkimuksessa on kehitetty ensimmäinen koneoppimismalli, jolla ennustetaan LLPS eri olosuhteissa.

Description

Supervisor

Hyvönen, Nuutti

Thesis advisor

Laukkanen, Anssi

Keywords

liquid-liquid phase separation, graph neural network, machine learning, protein

Other note

Citation