Predicting liquid-liquid phase separation of proteins using graph neural network
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2023-06-13
Department
Major/Subject
Systems and Operations Research
Mcode
SCI3055
Degree programme
Master’s Programme in Mathematics and Operations Research
Language
en
Pages
59
Series
Abstract
Liquid-liquid phase separation (LLPS) of proteins has been shown to be related to many diseases and biological processes. In LLPS, the proteins become concentrated in some places and form two distinct liquid phases. The occurrence of this phenomenon is highly dependent on the conditions of the protein solution. Determining the LLPS behavior of a protein through simulations or experiments is expensive and time-consuming which has raised interest in using machine learning methods to predict LLPS. However, previous machine learning methods on LLPS have used small data sets which has limited the methods that can be applied. In addition, the previous machine learning methods have not considered the conditions at which the LLPS occurs. Therefore, this thesis aims to develop a machine learning model that can predict the LLPS of proteins under different conditions and evaluate the performance of the model. The developed model uses a graph neural network (GNN) to extract information from the three-dimensional structure of the proteins. The two conditions used in the model are temperature and salt concentration. The conditions are incorporated in the model before and after the GNN. Simulated data is used as the training data for the model, and experimental data is used to evaluate the performance of the model. The results for the simulated data indicate that the GNN model is capable of extracting information from protein structures on a general level. However, the model is not capable of predicting the complicated condition dependencies that are present in the simulated data. This suggests that the model should be developed further to be able to predict the condition dependencies better. The model was not able to predict the experimental data accurately. The main reason for this was the discrepancy between the simulated and experimental data. Therefore, to improve the performance of the model on experimental data, the LLPS simulations and determining the LLPS information from the simulations should be studied further. Nevertheless, this thesis is the first contribution to developing a machine learning model to predict LLPS under different external conditions.Proteiinien neste-nestefaasierotuksen (LLPS) on osoitettu liittyvän moniin sairauksiin ja biologisiin prosesseihin. LLPS:ssä proteiinit konsentroituvat tiettyihin paikkoihin ja muodostavat kaksi erillistä nestefaasia. Tämän ilmiön esiintyminen on riippuvainen proteiiniliuoksen olosuhteista. Proteiinin LLPS-käyttäytymisen määrittäminen simulaatioiden tai kokeiden avulla on kallista ja aikaa vievää, mikä on nostanut kiinnostusta koneoppimismenetelmiin, joilla voitaisiin ennustaa LLPS. Aiemmissa LLPS:ää koskevissa koneoppimismenetelmissä on käytetty pieniä data-aineistoja, mikä on rajoittanut sovellettavia menetelmiä. Lisäksi aiemmissa koneoppimismenetelmissä ei ole otettu huomioon olosuhteita, joissa LLPS tapahtuu. Tämän vuoksi tämän tutkimuksen tavoitteena on kehittää koneoppimismalli, jolla voidaan ennustaa proteiinien LLPS:ää eri olosuhteissa, ja arvioida mallin suorituskykyä. Kehitetyssä mallissa käytetään graafineuroverkkoa (GNN), jonka avulla saadaan hyödynnettyä tietoa proteiinien kolmiulotteisesta rakenteesta. Mallissa käytetyt kaksi olosuhdetta ovat lämpötila ja suolapitoisuus. Olosuhteet sisällytetään malliin ennen ja jälkeen GNN:n. Mallin harjoitusdatana käytetään simuloitua dataa, ja mallin suorituskyvyn arviointiin käytetään kokeellista dataa. Simuloitudulla datalla saadut tulokset osoittavat, että GNN-malli kykenee poimimaan tietoa proteiinirakenteista yleisellä tasolla. Malli ei kuitenkaan kykene ennustamaan simuloidussa datassa esiintyviä monimutkaisia olosuhderiippuvuuksia. Tämä viittaa siihen, että mallia olisi kehitettävä edelleen, jotta se pystyisi ennustamaan olosuhderiippuvuudet paremmin. Kehitetty malli ei pystynyt ennustamaan kokeellista dataa tarkasti. Pääasiallinen syy tähän oli simuloidun ja kokeellisen datan välinen eroavuus. Tästä syystä LLPS-simulaatioita ja LLPS:n määrittämistä simulaatioista on tutkittava lisää, jotta mallien suorituskykyä kokeellisen datan osalta voitaisiin parantaa. Siitä huolimatta tässä tutkimuksessa on kehitetty ensimmäinen koneoppimismalli, jolla ennustetaan LLPS eri olosuhteissa.Description
Supervisor
Hyvönen, NuuttiThesis advisor
Laukkanen, AnssiKeywords
liquid-liquid phase separation, graph neural network, machine learning, protein