Computational modelling of folded protein-protein interactions

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Kemian tekniikan korkeakoulu | Bachelor's thesis

Department

Mcode

CHEM3049

Language

en

Pages

35

Series

Abstract

This thesis is a literature review focused on folded proteins, their interactions, and the state-of-the-art computational methods for predicting folded protein–protein interactions (PPIs). PPIs can be divided into permanent and transient, depending on the lifetime of the protein complexes, which consist of two or more interacting proteins. Studying protein complexes and PPIs is essential for increased understanding of cellular behaviour and drug-discovery, as aberrant interactions have been connected to diseases. PPIs can be uncovered using experimental methods, such as nuclear magnetic resonance, X-ray crystallography, and cryo-electron microscopy. However, experimental methods are time-consuming and expensive compared to computational modelling, which offers a significantly faster and cheaper alternative. Computational PPI prediction methods have developed rapidly due to the increasing amount of easily available protein sequence-structure data and advancements in machine learning algorithms. PPIs and protein complexes can be modelled using ab-initio docking, template-based docking, or machine learning based approaches, such as AlphaFold-Multimer. Ab-initio docking uses the structures of the unbound target proteins, whereas template-based docking relies on templates of known protein complexes. AlphaFold-Multimer uses multiple sequence alignments to predict interfacial contacts between the target protein sequences. The quality of PPI predictions can be assessed using different evaluation criteria, such as root-mean-square-deviation (RMSD) and DockQ values, which are also applied in the CASP-CAPRI blind prediction experiments. Computational methods offer viable alternatives to experimental methods for modelling most folded PPIs. However, further development in the field of computational PPI prediction is still needed. For example, prediction of protein complexes involving antibodies often remains insufficient, even though predicting them could greatly contribute to the development of new medicines and treatments. The future focus of the field is obtaining more data for the machine learning models, where experimental investigations are key.

Tämä kandidaatintutkielma on kirjallisuuskatsaus laskostuneiden proteiinien (engl. folded proteins) rakenteista ja vuorovaikutuksista sekä ajankohtaisista tietokonemallinnuksen menetelmistä, joita käytetään näiden vuorovaikutusten ennustamiseen. Proteiinien väliset vuorovaikutukset voidaan jakaa lyhytaikaisiin (engl. transient) ja pitkäaikaisiin (engl. permanent) riippuen siitä, kuinka pitkäikäisiä näiden vuorovaikutusten muodostamat proteiinikompleksit ovat. Koska useimmat proteiinit vuorovaikuttavat keskenään soluissa, proteiinikomplekseja ja vuorovaikutuksia tutkimalla voidaan paremmin ymmärtää solujen aineenvaihduntaa ja kehittää uusia lääketieteellisiä hoitomenetelmiä. Proteiinien välisiä vuorovaikutuksia voidaan kokeellisesti tutkia esimerkiksi röntgenkristallografialla, ydinmagneettisella resonanssilla tai kryoelektronimikroskopialla, mutta kokeelliset menetelmät ovat hitaita ja kalliita verrattuna tietokonemallinnukseen, joka tarjoaa huomattavasti nopeampia ja edullisempia vaihtoehtoja. Proteiinikompleksien ja -vuorovaikutusten mallinnus on kohdannut suuria edistysaskeleita jatkuvasti lisääntyvän proteiinisekvenssi- ja rakennedatan sekä koneoppimisen hyödyntämisen myötä. Useiden kirjallisuuslähteiden ja tutkimusten perusteella ajankohtaiset proteiinikompleksien mallinnusmenetelmät hyödyntävät yksittäisten proteiinien rakenteita (engl. ab-initio docking), ennalta tunnettujen proteiinikompleksien rakenteista tehtyjä templaatteja (engl. template-based docking), tai koneoppimista, kuten AlphaFold-Multimer -ohjelman tapauksessa. Mallinnusmenetelmien tuloksia arvioidaan erilaisilla arviointikriteereillä, kuten virheen neliöllisillä keskiarvoilla (RMSD) ja DockQ-arvoilla, joita käytetään myös puolueettomasti järjestetyissä CASP-CAPRI -kokeissa. Huolimatta merkittävistä edistysaskeleista, alalta löytyy edelleen kohteita jatkokehitykselle. Nykyiset mallinnusmenetelmät eivät esimerkiksi kykene hyväksytysti mallintamaan vasta-aineita sisältäviä proteiinikomplekseja, vaikka niiden mallintaminen voisi tarjota merkittäviä mahdollisuuksia uusien lääketieteellisten hoitojen kehityksessä. Alan tulevaisuus painottuu todennäköisesti koneoppimismalleihin, joiden opettamiseen tarvitaan nykyistä enemmän luotettavaa dataa. Proteiinivuorovaikutusten tutkimiseen käytettyjen mallinnusmenetelmien lisäksi myös kokeelliset menetelmät pysyvätkin edelleen ajankohtaisina, sillä kokeellista tietoa tarvitaan mallinnusmenetelmien kehitykseen sekä tulosten arviointiin ja vertailuun.

Description

Supervisor

Nieminen, Minna-Hanna

Thesis advisor

Harmat, Adam

Other note

Citation